V
主页
VILA-U:端到端的统一理解和生成任务的多模态大模型
发布人
arxiv:https://www.arxiv.org/pdf/2409.04429 VILA: https://arxiv.org/pdf/2312.07533 VILA^2: https://arxiv.org/pdf/2407.17453v1
打开封面
下载高清视频
观看高清视频
视频下载器
OMG-LLaVA:拥有segmentation能力的视觉多模态大模型
mPLUG-DocOwl2:多页多模态文档理解大模型
NVLM:融合LLaVA和Flamingo架构的多模态大模型系列
ChartMoE:使用MoE adapter的Chart理解多模态大模型
LLaMA-omni:低延时的语言交互多模态大模型
LLaVA-MoD:基于知识蒸馏的小多模态大模型
Qwen2-VL:支持任意精度图片以及视频输入的开源大模型系列
Cambrian-1:以视觉为中心,基于多个vision encoder的多模态大模型
research track 1:多模态大模型最新的一些论文
【全374集】2024最新清华内部版!终于把AI大模型(LLM)讲清楚了!全程干货讲解,通俗易懂,拿走不谢!
SHOW-o:统一理解和生成任务的transformer
BLIP3: 抛弃Q-former的BLIP
Open-MAGVIT2基于Lookup-free Quantization的开源图片生成模型
OLMoE:基于MoE的全开源大模型
LongLLaVA:基于Jamba的多图理解多模态大模型
agent Q: 超强网页交互agent
Points: 融合多个优化策略的多模态大模型
CogVLM2:智谱AI新一代多模态大模型系列
【大模型技术】使用Ollama+Dify搭建一个属于自己的知识库!支持多种文件类型,实现本地部署大模型,真的太好用了!
UnifiedMLLM:多任务多模态大模型
llava-onevision:llava系列集大成者
idefics2:视觉多模态大模型的架构探索
mPLUG-Owl3 多图理解多模态大模型
mini-omni:实时可交互语音大模型
读研期间,如何快速构建知识图谱?跟着博士轻松搞懂多模态大模型+知识图谱!(知识抽取|Graph RAG|多模态知识图谱|Neo4j|医药问答系统)
【PyTorch+多模态大模型】使用PyTorch从零构建多模态视觉大模型!博士串讲CLIP、BLIP-2、对比学习、LLM
从0到1搭建自己的的智能体(Agent)!大模型Agent智能体企业级项目实战:手把手带你搭建,原理讲解+代码解析,超详细,LLM_大模型_微调_提示词
The AI Scientist: 用AI完成科研全栈任务
从算法视角理解transformer
时隔一年半,吴恩达亲授最新AI课程汇总(4集全):初学者的AI+PYTHON---AI Python for Beginners
用 Ollama写了一个本地AI客户端!打造免费开源的智能助手,专属自己的本地客户端应用程序震撼上线!开启个性化智能助手新时代!
DocLayLLM:高效,SOTA的文档理解多模态大模型
不是GPT用不起 这些国产平替更有性价比!
(超爽中英!) 2024公认最全的【吴恩达大模型LLM】系列教程!附代码_LangChain_微调ChatGPT提示词_RAG模型应用_agent_生成式AI
【AI大模型】使用Ollama+Dify搭建一个专属于自己的知识库!支持多种文件类型,本地部署大模型,效果出奇的好!
七分钟带你通俗易的懂理解大模型微调以及全量微调和LoRA微调区别
2024年5款开源本地知识库全面对比解析:到底哪一款最适合你?深入解析助你选择最佳方案!大模型入门,大模型教程
2024最好出论文的两个研究方向:【对比学习+多模态】CLIP模型、Dalle2、多模态3D目标检测、MedCLIP医学图像文本,迪哥带你轻松搞定论文创新点!
Qwen2_math
深入浅出讲一讲大模型的Scaling Law(缩放定律)