MM-ICL：关于多模态In Context Learning的消融实验 - 视频下载 Video Downloader

MM-ICL：关于多模态In Context Learning的消融实验

发布人

arxiv：https://arxiv.org/abs/2410.20482

打开封面下载高清视频观看高清视频视频下载器

OMG-LLaVA：拥有segmentation能力的视觉多模态大模型

【LLM前沿】6小时精讲四大多模态大模型CLIP BLIP VIT MLLM及对话机器人办公助手！绝对的通俗易懂的大模型应用教程！

MM1.5：Apple多模态大模型系列

transfusion：统一transformer和diffusion框架的多模态大模型

LLaVA-MoD：基于知识蒸馏的小多模态大模型

LLaMA-omni：低延时的语言交互多模态大模型

【NeurIPS2024 Oral】VAR：使用next scale prediction，基于自回归架构的图片生成模型

【多模态+知识图谱】博士轻松带你从零构建知识图谱！基于知识图谱的六大项目实战—医药问答系统、知识抽取、推荐系统、Neo4j数据库、大模型

mono-internvl：一体化的多模态大模型

Qwen2-VL：支持任意精度图片以及视频输入的开源大模型系列

Emu3：统一理解和生成的多模态大模型

Research Track 1：多模态大模型最新的一些论文

VILA-U：端到端的统一理解和生成任务的多模态大模型

SlowFast-LLaVA：无需训练的视频理解多模态大模型

agent Q: 超强网页交互agent

Aria：基于MoE架构的原生多模态大模型

Research Track 3：多模态大模型最新的一些论文

Ferret-UI 2：拥有跨平台UI理解的多模态大模型

【共享LLM前沿】假如我从11月1号开始学大模型！9小时学会搭建对话机器人办公助手、大模型预训练微调、四大多模态大模型！

吹爆！这绝对是中国科学院最出名的科研进阶教程了没有之一，零基础阶段必看的论文写作指南，小白也能很好懂！

【Agent+RAG】10小时博士精讲AI Agent(人工智能体)系列—提示工程、文本大模型、GPT...

LongLLaVA:基于Jamba的多图理解多模态大模型

自从学会抄，一年轻松发6篇SCI！B站公认最好的【SCI论文写作教程】基本套路+实操演示，包含所有干货内容！-论文/SCI论文/毕业论文

Research Track 5：多模态大模型最新的一些论文

mPLUG-DocOwl2：多页多模态文档理解大模型

Cambrian-1：以视觉为中心，基于多个vision encoder的多模态大模型

Janus：基于分离视觉编码器的统一理解与生成的多模态大模型

GameNGen：使用diffusion model做的游戏引擎

Open-MAGVIT2基于Lookup-free Quantization的开源图片生成模型

天才中单体验德国女大学生开学的一天

RAR：一个基于token shuffling的提升自回归架构图片生成模型表现的策略

NVIDIA超算2024特别发布| 黄仁勋致辞 2024.11.19【中英精校】

SHOW-o：统一理解和生成任务的transformer

Research Track 8：比较关注的一些论文

Research Track 6：多模态大模型最新的一些论文

ChartMoE：使用MoE adapter的Chart理解多模态大模型

从入门到提示词工程师：全网最通俗易懂Prompt-Learning提示词学习教程！草履虫都学的会！

2025版AI大模型全套视频 (LLM+RAG系统+GPT-4o+OpenAI）这绝对是ai大模型教程天花板！

英伟达发布MM-Embed：融合文本和图像的跨模态信息检索新模型

MLLM多模态大模型三大奠基模型：VIT/CLIP/BLIP模型原理详解+项目实战，通俗易懂的大模型入门教程！