中科院刘静：多模态预训练的进展回顾与展望（多模态大模型系列【一】）

发布人

演讲嘉宾：刘静 （中国科学院自动化研究所 模式识别国家重点实验室研究员）

演讲来源：北京智源大会2023

打开封面下载高清视频观看高清视频视频下载器

多模态模型CLIP深度讲解

谷歌周彦祺: 大语言模型扩展——从幂律到稀疏性（GPT大模型训练方法系列【二】）

清华代季峰: 从通用感知模型到通用智能体模型【中文字幕】

理解跨模态知识蒸馏 [ICLR 2023 Oral]

零样本操控机器人，李飞飞团队新作Voxposer【双语字幕】【4K】

北大发布多模态大模型LLaVA-o1（已更名为LLaVA-CoT）推理计算Scaling新思路

多模态大模型发展简述及其微调部署实践(InternVL2为例)

YOLOv11多模态结合CFT模块融合可见光+红外光双输入

meta-transformer: 实现12种模态统一学习的框架

ReAct: 实现大语言模型的推理和行动协同能力 [ICLR 2023 Oral] 【Princeton|Google】

1B多模态小模型只用于图片中表格的结构化提取，支持latex，markdown，html三种格式，效果似乎有点难说

【多模态+大模型+知识图谱】2024完整版：这绝对是B站最全的教程，论文创新点终于解决了！——人工智能/深度学习/AIGC/计算机视觉

【多模态机器学习 11-777 2023】卡耐基梅隆—中英字幕

SIGGRAPH 2023技术论文先导片，计算机图形学最新进展先睹为快！

dinov2: 无监督学习鲁棒视觉特征（视觉大模型系列【一】）

深度学习+遥感，这口饭得趁热吃啊！绝佳A会创新点！！！

来看看ChatGPT如何回答多年前马科长的这段采访。

谷歌DeepMind: 用大语言模型和奖励函数实现机器人技能合成【双语字幕】

GPT o1模型使用及API调用

Ferret-UI 2：拥有跨平台UI理解的多模态大模型

第一个发现用github学大模型的人真的是天才！

2025顶会热点！三小时带你吃透【具身智能】，第二讲——LLMS for robotics

ICCV 2023: 即插即用的视频深度估计【华科|Adobe|南洋理工】

谷歌DeepMind: 能自我提升的机器人AI智能体RoboCat 【双语字幕】

Unified-IO: 统一视觉、语言和多模态任务 [ICLR 2023 Oral]

超越GPT-4o mini！北大开源国产多模态版o1，超强视觉推理惊呆网友

自研多模态RAG系统实践分享+基于VLLM+LLMs+RAG+Agent等组合技术+精确获取答案

GPT五步提问：一天写完一篇综述小论文

都在聊大模型，那怎么评价多模态大模型的好坏呢？

2024多模态最新进展！迪哥带你解读对比学习与多模态任务实战，全程高能，不要错过！

看完带走一篇二区！目前最好发论文的方向-多模态论文复现教学来喽！--人工智能/深度学习/多模态

英伟达发布MM-Embed：融合文本和图像的跨模态信息检索新模型

一次学懂多模态算法：ALBEF模型

Follow Anything：实时开放集检测、跟踪和跟随【麻省理工|哈佛】

用GPT-4.0训练小200万倍可直接本地运行的小模型

DragGAN一作潘新钢：实时交互式拖动图像编辑 [SIGGRAPH 2023]

多模态数据融合最新Nature来袭！四种方法就上岸，可别错过了这波好思路！-机器学习/深度学习/多模态

绝对通俗易懂！9小时精讲大模型预训练微调+四大多模态大模型CLIP BLIP VIT MLLM+对话机器人办公助手

openai继续向AGI狂奔将要发布下一代模型

英伟达高俊: AI高质量三维内容生成（内容生成系列【一】）

中科院刘静：多模态预训练的进展回顾与展望（多模态大模型系列【一】）

多模态模型CLIP深度讲解

谷歌周彦祺: 大语言模型扩展——从幂律到稀疏性（GPT大模型训练方法系列【二】）

清华代季峰: 从通用感知模型到通用智能体模型 【中文字幕】

理解跨模态知识蒸馏 [ICLR 2023 Oral]

零样本操控机器人，李飞飞团队新作Voxposer【双语字幕】【4K】

北大发布多模态大模型LLaVA-o1（已更名为LLaVA-CoT）推理计算Scaling新思路

多模态大模型发展简述及其微调部署实践(InternVL2为例)

YOLOv11多模态 结合CFT模块 融合可见光+红外光双输入

meta-transformer: 实现12种模态统一学习的框架

ReAct: 实现大语言模型的推理和行动协同能力 [ICLR 2023 Oral] 【Princeton|Google】

1B多模态小模型只用于图片中表格的结构化提取，支持latex，markdown，html三种格式，效果似乎有点难说

【多模态+大模型+知识图谱】2024完整版：这绝对是B站最全的教程，论文创新点终于解决了！——人工智能/深度学习/AIGC/计算机视觉

【多模态机器学习 11-777 2023】卡耐基梅隆—中英字幕

SIGGRAPH 2023技术论文先导片，计算机图形学最新进展先睹为快！

dinov2: 无监督学习鲁棒视觉特征（视觉大模型系列【一】）

深度学习+遥感，这口饭得趁热吃啊！绝佳A会创新点！！！

来看看ChatGPT如何回答多年前马科长的这段采访。

谷歌DeepMind: 用大语言模型和奖励函数实现机器人技能合成 【双语字幕】

GPT o1模型使用及API调用

Ferret-UI 2：拥有跨平台UI理解的多模态大模型

第一个发现用github学大模型的人真的是天才！

2025顶会热点！三小时带你吃透【具身智能】 ，第二讲——LLMS for robotics

ICCV 2023: 即插即用的视频深度估计【华科|Adobe|南洋理工】

谷歌DeepMind: 能自我提升的机器人AI智能体RoboCat 【双语字幕】

Unified-IO: 统一视觉、语言和多模态任务 [ICLR 2023 Oral]

超越GPT-4o mini！北大开源国产多模态版o1，超强视觉推理惊呆网友

自研多模态RAG系统实践分享+基于VLLM+LLMs+RAG+Agent等组合技术+精确获取答案

GPT五步提问：一天写完一篇综述小论文

都在聊大模型，那怎么评价多模态大模型的好坏呢？

2024多模态最新进展！迪哥带你解读对比学习与多模态任务实战，全程高能，不要错过！

看完带走一篇二区！目前最好发论文的方向-多模态论文复现教学来喽！--人工智能/深度学习/多模态

英伟达发布MM-Embed：融合文本和图像的跨模态信息检索新模型

一次学懂多模态算法：ALBEF模型

Follow Anything：实时开放集检测、跟踪和跟随【麻省理工|哈佛】

用GPT-4.0训练小200万倍可直接本地运行的小模型

DragGAN一作潘新钢：实时交互式拖动图像编辑 [SIGGRAPH 2023]

多模态数据融合最新Nature来袭！四种方法就上岸，可别错过了这波好思路！-机器学习/深度学习/多模态

绝对通俗易懂！9小时精讲大模型预训练微调+四大多模态大模型CLIP BLIP VIT MLLM+对话机器人办公助手

openai继续向AGI狂奔将要发布下一代模型

英伟达高俊: AI高质量三维内容生成（内容生成系列【一】）

清华代季峰: 从通用感知模型到通用智能体模型【中文字幕】

YOLOv11多模态结合CFT模块融合可见光+红外光双输入

谷歌DeepMind: 用大语言模型和奖励函数实现机器人技能合成【双语字幕】

2025顶会热点！三小时带你吃透【具身智能】，第二讲——LLMS for robotics