V
主页
中科院刘静:多模态预训练的进展回顾与展望(多模态大模型系列【一】)
发布人
演讲嘉宾:刘静 (中国科学院自动化研究所 模式识别国家重点实验室研究员) 演讲来源:北京智源大会2023
打开封面
下载高清视频
观看高清视频
视频下载器
多模态模型CLIP深度讲解
谷歌周彦祺: 大语言模型扩展——从幂律到稀疏性(GPT大模型训练方法系列【二】)
清华代季峰: 从通用感知模型到通用智能体模型 【中文字幕】
理解跨模态知识蒸馏 [ICLR 2023 Oral]
零样本操控机器人,李飞飞团队新作Voxposer【双语字幕】【4K】
北大发布多模态大模型LLaVA-o1(已更名为LLaVA-CoT)推理计算Scaling新思路
多模态大模型发展简述及其微调部署实践(InternVL2为例)
YOLOv11多模态 结合CFT模块 融合可见光+红外光双输入
meta-transformer: 实现12种模态统一学习的框架
ReAct: 实现大语言模型的推理和行动协同能力 [ICLR 2023 Oral] 【Princeton|Google】
1B多模态小模型只用于图片中表格的结构化提取,支持latex,markdown,html三种格式,效果似乎有点难说
【多模态+大模型+知识图谱】2024完整版:这绝对是B站最全的教程,论文创新点终于解决了!——人工智能/深度学习/AIGC/计算机视觉
【多模态机器学习 11-777 2023】卡耐基梅隆—中英字幕
SIGGRAPH 2023技术论文先导片,计算机图形学最新进展先睹为快!
dinov2: 无监督学习鲁棒视觉特征(视觉大模型系列【一】)
深度学习+遥感,这口饭得趁热吃啊!绝佳A会创新点!!!
来看看ChatGPT如何回答多年前马科长的这段采访。
谷歌DeepMind: 用大语言模型和奖励函数实现机器人技能合成 【双语字幕】
GPT o1模型使用及API调用
Ferret-UI 2:拥有跨平台UI理解的多模态大模型
第一个发现用github学大模型的人真的是天才!
2025顶会热点!三小时带你吃透【具身智能】 ,第二讲——LLMS for robotics
ICCV 2023: 即插即用的视频深度估计【华科|Adobe|南洋理工】
谷歌DeepMind: 能自我提升的机器人AI智能体RoboCat 【双语字幕】
Unified-IO: 统一视觉、语言和多模态任务 [ICLR 2023 Oral]
超越GPT-4o mini!北大开源国产多模态版o1,超强视觉推理惊呆网友
自研多模态RAG系统实践分享+基于VLLM+LLMs+RAG+Agent等组合技术+精确获取答案
GPT五步提问:一天写完一篇综述小论文
都在聊大模型,那怎么评价多模态大模型的好坏呢?
2024多模态最新进展!迪哥带你解读对比学习与多模态任务实战,全程高能,不要错过!
看完带走一篇二区!目前最好发论文的方向-多模态论文复现教学来喽!--人工智能/深度学习/多模态
英伟达发布MM-Embed:融合文本和图像的跨模态信息检索新模型
一次学懂多模态算法:ALBEF模型
Follow Anything:实时开放集检测、跟踪和跟随【麻省理工|哈佛】
用GPT-4.0训练小200万倍可直接本地运行的小模型
DragGAN一作潘新钢:实时交互式拖动图像编辑 [SIGGRAPH 2023]
多模态数据融合最新Nature来袭!四种方法就上岸,可别错过了这波好思路!-机器学习/深度学习/多模态
绝对通俗易懂!9小时精讲大模型预训练微调+四大多模态大模型CLIP BLIP VIT MLLM+对话机器人办公助手
openai继续向AGI狂奔将要发布下一代模型
英伟达高俊: AI高质量三维内容生成(内容生成系列【一】)