V
主页
CVPR 2024 - 具身智能中的多模态三维感知思考
发布人
【分享人】 王泰,博士毕业于香港中文大学 MMLab,现为上海人工智能实验室青年研究员,研究方向为三维视觉和具身智能。 【分享内容】 从驾驶场景到室内场景:新的问题与挑战 EmbodiedScan:首个多模态、基于第一视角的真实场景三维感知数据集 Embodied Perceptron:适配任意帧输入的统一基线框架 从 Benchmark 看 EmbodiedScan 的价值 未来工作:从开源到比赛,共建具身智能研究社区 【相关资料】 论文:https://arxiv.org/abs/2312.16170 项目:http://tai-wang.github.io/embodiedscan 代码:https://github.com/OpenRobotLab/EmbodiedScan 比赛:https://opendrivelab.com/challenge2024/#multiview_3d_visual_grounding 【OpenMMLab】公众号回复‘社区开放麦’即可获取视频课件,微信添加小助手 InternLM 进入导师群沟通
打开封面
下载高清视频
观看高清视频
视频下载器
多模态任务终结者:Meta-Transformer
多模态简述
自研多模态RAG系统实践分享+基于VLLM+LLMs+RAG+Agent等组合技术+精确获取答案
2024多模态最新进展!迪哥带你解读对比学习与多模态任务实战,全程高能,不要错过!
运用 SAM 模型分割任意点云
2025顶会热点!三小时带你吃透【具身智能】 ,第二讲——LLMS for robotics
XTuner 微调 LLM:1.8B、多模态、Agent
什么是注意力机制?迪哥精讲Transformer在检测/分割/多模态/图结构/大模型等场景的应用,带你吃透注意力机制!
北大发布多模态大模型LLaVA-o1(已更名为LLaVA-CoT)推理计算Scaling新思路
【清华机器人】机器人迈向ChatGPT时刻!清华团队首次发现具身智能Scaling Laws
你的3D感知模型够鲁棒吗?Robo3D告诉你答案!
社区开放麦#11 | BEV感知:下一代自动驾驶感知算法新范式
深度学习预训练与MMPretrain
基于大规模多模态扩散模型的文本到视频生成
绝对通俗易懂!9小时精讲大模型预训练微调+四大多模态大模型CLIP BLIP VIT MLLM+对话机器人办公助手
1. PyTorch 模型部署基础知识
用代码合成的抽象图表构建多模态基准|EMNLP 2024浙大张文祺
AI奇妙夜#5 | “视觉与语言”跨模态智能及应用
都在聊大模型,那怎么评价多模态大模型的好坏呢?
低成本微调垂直领域专属 ChatGPT
Meta开源视觉触觉感知方案
社区开放麦#2|CVPR前沿姿态估计论文精讲
超大规模视觉通用感知模型-代季峰教授 | AI奇妙夜#6
清华赵明国:智能人形机器人≠智能+人形 | 智者访谈
NeurIPS'24 | 原语驱动的世界模型 PIVOT-R实现任务泛化与效率双重 提升,成功率超过谷歌RT-1 26.6%
大模型微调数据构造(补充课程)
【Actuate 2024】中文字幕|机器人基础模型 - Robotic Foundation Models|Sergey Levine
孙正义:比人类聪明一万倍的,超级智能AGI将在2035年到来!人工智能技术
【AI虚拟伙伴】对接本地Qwen2-VL多模态视觉大模型教程 qwen_vl_simple_api开源
新时代降临!多模态大模型的结构范式都有啥?
大模型角色扮演框架 RoleLLM
具身智能机械臂实操入门课程-04(完):模型推理和抓取效果验证
开放检测视觉场景理解 | 社区开放麦
通用目标检测工具 MMDetection3.0 | CVPR 2023 (全英分享)
【10月29日Arxiv】浙大提出OmniSep全模态声音分离框架;2024年10月29日arXiv cs.CV发文量约191余篇,减论Agent
Figure 02 人形机器人在宝马的斯帕坦堡工厂分拣汽车零件 具身智能机器人开始群体协作
MindSearch:AI 时代的“思考型”智能搜索引擎
多模态大模型的前奏:迈向真实世界的通用感知 | 热门研究云际会#2
科研案例|基于 PyBullet 的具身智能软硬件平台 BestMan
Ferret-UI 2:拥有跨平台UI理解的多模态大模型