VILA-U：端到端的统一理解和生成任务的多模态大模型

发布人

arxiv：https://www.arxiv.org/pdf/2409.04429

VILA: https://arxiv.org/pdf/2312.07533
VILA^2: https://arxiv.org/pdf/2407.17453v1

打开封面下载高清视频观看高清视频视频下载器

OMG-LLaVA：拥有segmentation能力的视觉多模态大模型

mPLUG-DocOwl2：多页多模态文档理解大模型

NVLM：融合LLaVA和Flamingo架构的多模态大模型系列

ChartMoE：使用MoE adapter的Chart理解多模态大模型

LLaMA-omni：低延时的语言交互多模态大模型

LLaVA-MoD：基于知识蒸馏的小多模态大模型

Qwen2-VL：支持任意精度图片以及视频输入的开源大模型系列

Cambrian-1：以视觉为中心，基于多个vision encoder的多模态大模型

research track 1：多模态大模型最新的一些论文

【全374集】2024最新清华内部版！终于把AI大模型（LLM）讲清楚了！全程干货讲解，通俗易懂，拿走不谢！

SHOW-o：统一理解和生成任务的transformer

BLIP3: 抛弃Q-former的BLIP

Open-MAGVIT2基于Lookup-free Quantization的开源图片生成模型

OLMoE：基于MoE的全开源大模型

LongLLaVA:基于Jamba的多图理解多模态大模型

agent Q: 超强网页交互agent

Points: 融合多个优化策略的多模态大模型

CogVLM2：智谱AI新一代多模态大模型系列

【大模型技术】使用Ollama+Dify搭建一个属于自己的知识库！支持多种文件类型，实现本地部署大模型，真的太好用了！

UnifiedMLLM：多任务多模态大模型

llava-onevision：llava系列集大成者

idefics2：视觉多模态大模型的架构探索

mPLUG-Owl3 多图理解多模态大模型

mini-omni：实时可交互语音大模型

读研期间，如何快速构建知识图谱？跟着博士轻松搞懂多模态大模型+知识图谱！（知识抽取｜Graph RAG｜多模态知识图谱｜Neo4j｜医药问答系统）

【PyTorch+多模态大模型】使用PyTorch从零构建多模态视觉大模型！博士串讲CLIP、BLIP-2、对比学习、LLM

从0到1搭建自己的的智能体（Agent）！大模型Agent智能体企业级项目实战：手把手带你搭建，原理讲解+代码解析，超详细，LLM_大模型_微调_提示词

The AI Scientist: 用AI完成科研全栈任务

从算法视角理解transformer

时隔一年半，吴恩达亲授最新AI课程汇总(4集全)：初学者的AI+PYTHON---AI Python for Beginners

用 Ollama写了一个本地AI客户端！打造免费开源的智能助手，专属自己的本地客户端应用程序震撼上线！开启个性化智能助手新时代！

DocLayLLM：高效，SOTA的文档理解多模态大模型

不是GPT用不起这些国产平替更有性价比！

(超爽中英!) 2024公认最全的【吴恩达大模型LLM】系列教程！附代码_LangChain_微调ChatGPT提示词_RAG模型应用_agent_生成式AI

【AI大模型】使用Ollama+Dify搭建一个专属于自己的知识库！支持多种文件类型，本地部署大模型，效果出奇的好！

七分钟带你通俗易的懂理解大模型微调以及全量微调和LoRA微调区别

2024年5款开源本地知识库全面对比解析：到底哪一款最适合你？深入解析助你选择最佳方案！大模型入门，大模型教程

2024最好出论文的两个研究方向：【对比学习+多模态】CLIP模型、Dalle2、多模态3D目标检测、MedCLIP医学图像文本，迪哥带你轻松搞定论文创新点！

Qwen2_math

深入浅出讲一讲大模型的Scaling Law(缩放定律)

VILA-U：端到端的统一理解和生成任务的多模态大模型

OMG-LLaVA：拥有segmentation能力的视觉多模态大模型

mPLUG-DocOwl2：多页多模态文档理解大模型

NVLM：融合LLaVA和Flamingo架构的多模态大模型系列

ChartMoE：使用MoE adapter的Chart理解多模态大模型

LLaMA-omni：低延时的语言交互多模态大模型

LLaVA-MoD：基于知识蒸馏的小多模态大模型

Qwen2-VL：支持任意精度图片以及视频输入的开源大模型系列

Cambrian-1：以视觉为中心，基于多个vision encoder的多模态大模型

research track 1：多模态大模型最新的一些论文

【全374集】2024最新清华内部版！终于把AI大模型（LLM）讲清楚了！全程干货讲解，通俗易懂，拿走不谢！

SHOW-o：统一理解和生成任务的transformer

BLIP3: 抛弃Q-former的BLIP

Open-MAGVIT2基于Lookup-free Quantization的开源图片生成模型

OLMoE：基于MoE的全开源大模型

LongLLaVA:基于Jamba的多图理解多模态大模型

agent Q: 超强网页交互agent

Points: 融合多个优化策略的多模态大模型

CogVLM2：智谱AI新一代多模态大模型系列

【大模型技术】使用Ollama+Dify搭建一个属于自己的知识库！支持多种文件类型，实现本地部署大模型，真的太好用了！

UnifiedMLLM：多任务多模态大模型

llava-onevision：llava系列集大成者

idefics2：视觉多模态大模型的架构探索

mPLUG-Owl3 多图理解多模态大模型

mini-omni：实时可交互语音大模型

读研期间，如何快速构建知识图谱？跟着博士轻松搞懂多模态大模型+知识图谱！（知识抽取｜Graph RAG｜多模态知识图谱｜Neo4j｜医药问答系统）

【PyTorch+多模态大模型】使用PyTorch从零构建多模态视觉大模型！博士串讲CLIP、BLIP-2、对比学习、LLM

从0到1搭建自己的的智能体（Agent）！大模型Agent智能体企业级项目实战：手把手带你搭建，原理讲解+代码解析，超详细，LLM_大模型_微调_提示词

The AI Scientist: 用AI完成科研全栈任务

从算法视角理解transformer

时隔一年半，吴恩达亲授最新AI课程汇总(4集全)：初学者的AI+PYTHON---AI Python for Beginners

用 Ollama写了一个本地AI客户端！打造免费开源的智能助手，专属自己的本地客户端应用程序震撼上线！开启个性化智能助手新时代！

DocLayLLM：高效，SOTA的文档理解多模态大模型

不是GPT用不起 这些国产平替更有性价比！

(超爽中英!) 2024公认最全的【吴恩达大模型LLM】系列教程！附代码_LangChain_微调ChatGPT提示词_RAG模型应用_agent_生成式AI

【AI大模型】使用Ollama+Dify搭建一个专属于自己的知识库！支持多种文件类型，本地部署大模型，效果出奇的好！

七分钟带你通俗易的懂理解大模型微调以及全量微调和LoRA微调区别

2024年5款开源本地知识库全面对比解析：到底哪一款最适合你？深入解析助你选择最佳方案！大模型入门，大模型教程

2024最好出论文的两个研究方向：【对比学习+多模态】CLIP模型、Dalle2、多模态3D目标检测、MedCLIP医学图像文本，迪哥带你轻松搞定论文创新点！

Qwen2_math

深入浅出讲一讲大模型的Scaling Law(缩放定律)

不是GPT用不起这些国产平替更有性价比！