V
主页
MM-ICL:关于多模态In Context Learning的消融实验
发布人
arxiv:https://arxiv.org/abs/2410.20482
打开封面
下载高清视频
观看高清视频
视频下载器
OMG-LLaVA:拥有segmentation能力的视觉多模态大模型
【LLM前沿】6小时精讲四大多模态大模型CLIP BLIP VIT MLLM及对话机器人办公助手!绝对的通俗易懂的大模型应用教程!
MM1.5:Apple多模态大模型系列
transfusion:统一transformer和diffusion框架的多模态大模型
LLaVA-MoD:基于知识蒸馏的小多模态大模型
LLaMA-omni:低延时的语言交互多模态大模型
【NeurIPS2024 Oral】VAR:使用next scale prediction,基于自回归架构的图片生成模型
【多模态+知识图谱】博士轻松带你从零构建知识图谱!基于知识图谱的六大项目实战—医药问答系统、知识抽取、推荐系统、Neo4j数据库、大模型
mono-internvl:一体化的多模态大模型
Qwen2-VL:支持任意精度图片以及视频输入的开源大模型系列
Emu3:统一理解和生成的多模态大模型
Research Track 1:多模态大模型最新的一些论文
VILA-U:端到端的统一理解和生成任务的多模态大模型
SlowFast-LLaVA:无需训练的视频理解多模态大模型
agent Q: 超强网页交互agent
Aria:基于MoE架构的原生多模态大模型
Research Track 3:多模态大模型最新的一些论文
Ferret-UI 2:拥有跨平台UI理解的多模态大模型
【共享LLM前沿】假如我从11月1号开始学大模型!9小时学会搭建对话机器人办公助手、大模型预训练微调、四大多模态大模型!
吹爆!这绝对是中国科学院最出名的科研进阶教程了没有之一,零基础阶段必看的论文写作指南,小白也能很好懂!
【Agent+RAG】10小时博士精讲AI Agent(人工智能体)系列—提示工程、文本大模型、GPT...
LongLLaVA:基于Jamba的多图理解多模态大模型
自从学会抄,一年轻松发6篇SCI!B站公认最好的【SCI论文写作教程】基本套路+实操演示,包含所有干货内容!-论文/SCI论文/毕业论文
Research Track 5:多模态大模型最新的一些论文
mPLUG-DocOwl2:多页多模态文档理解大模型
Cambrian-1:以视觉为中心,基于多个vision encoder的多模态大模型
Janus:基于分离视觉编码器的统一理解与生成的多模态大模型
GameNGen:使用diffusion model做的游戏引擎
Open-MAGVIT2基于Lookup-free Quantization的开源图片生成模型
天才中单体验德国女大学生开学的一天
RAR:一个基于token shuffling的提升自回归架构图片生成模型表现的策略
NVIDIA超算2024特别发布| 黄仁勋致辞 2024.11.19【中英精校】
SHOW-o:统一理解和生成任务的transformer
Research Track 8:比较关注的一些论文
Research Track 6:多模态大模型最新的一些论文
ChartMoE:使用MoE adapter的Chart理解多模态大模型
从入门到提示词工程师:全网最通俗易懂Prompt-Learning提示词学习教程!草履虫都学的会!
2025版AI大模型全套视频 (LLM+RAG系统+GPT-4o+OpenAI)这绝对是ai大模型教程天花板!
英伟达发布MM-Embed:融合文本和图像的跨模态信息检索新模型
MLLM多模态大模型三大奠基模型:VIT/CLIP/BLIP模型原理详解+项目实战,通俗易懂的大模型入门教程!