CVPR 2024 - 具身智能中的多模态三维感知思考 - 视频下载 Video Downloader

CVPR 2024 - 具身智能中的多模态三维感知思考

发布人

【分享人】
王泰，博士毕业于香港中文大学 MMLab，现为上海人工智能实验室青年研究员，研究方向为三维视觉和具身智能。

【分享内容】
从驾驶场景到室内场景：新的问题与挑战
EmbodiedScan：首个多模态、基于第一视角的真实场景三维感知数据集
Embodied Perceptron：适配任意帧输入的统一基线框架
从 Benchmark 看 EmbodiedScan 的价值
未来工作：从开源到比赛，共建具身智能研究社区



【相关资料】

论文：https://arxiv.org/abs/2312.16170
项目：http://tai-wang.github.io/embodiedscan
代码：https://github.com/OpenRobotLab/EmbodiedScan
比赛：https://opendrivelab.com/challenge2024/#multiview_3d_visual_grounding


【OpenMMLab】公众号回复‘社区开放麦’即可获取视频课件，微信添加小助手 InternLM 进入导师群沟通

打开封面下载高清视频观看高清视频视频下载器

多模态任务终结者：Meta-Transformer

多模态简述

自研多模态RAG系统实践分享+基于VLLM+LLMs+RAG+Agent等组合技术+精确获取答案

2024多模态最新进展！迪哥带你解读对比学习与多模态任务实战，全程高能，不要错过！

运用 SAM 模型分割任意点云

2025顶会热点！三小时带你吃透【具身智能】，第二讲——LLMS for robotics

XTuner 微调 LLM：1.8B、多模态、Agent

什么是注意力机制？迪哥精讲Transformer在检测/分割/多模态/图结构/大模型等场景的应用，带你吃透注意力机制！

北大发布多模态大模型LLaVA-o1（已更名为LLaVA-CoT）推理计算Scaling新思路

【清华机器人】机器人迈向ChatGPT时刻！清华团队首次发现具身智能Scaling Laws

你的3D感知模型够鲁棒吗？Robo3D告诉你答案！

社区开放麦#11 | BEV感知：下一代自动驾驶感知算法新范式

深度学习预训练与MMPretrain

基于大规模多模态扩散模型的文本到视频生成

绝对通俗易懂！9小时精讲大模型预训练微调+四大多模态大模型CLIP BLIP VIT MLLM+对话机器人办公助手

1. PyTorch 模型部署基础知识

用代码合成的抽象图表构建多模态基准|EMNLP 2024浙大张文祺

AI奇妙夜#5 | “视觉与语言”跨模态智能及应用

都在聊大模型，那怎么评价多模态大模型的好坏呢？

低成本微调垂直领域专属 ChatGPT

Meta开源视觉触觉感知方案

社区开放麦#2｜CVPR前沿姿态估计论文精讲

超大规模视觉通用感知模型-代季峰教授 | AI奇妙夜#6

清华赵明国：智能人形机器人≠智能+人形 | 智者访谈

NeurIPS'24 | 原语驱动的世界模型 PIVOT-R实现任务泛化与效率双重提升,成功率超过谷歌RT-1 26.6%

大模型微调数据构造（补充课程）

【Actuate 2024】中文字幕｜机器人基础模型 - Robotic Foundation Models｜Sergey Levine

孙正义：比人类聪明一万倍的，超级智能AGI将在2035年到来！人工智能技术

【AI虚拟伙伴】对接本地Qwen2-VL多模态视觉大模型教程 qwen_vl_simple_api开源

新时代降临！多模态大模型的结构范式都有啥？

大模型角色扮演框架 RoleLLM

具身智能机械臂实操入门课程-04（完）：模型推理和抓取效果验证

开放检测视觉场景理解 | 社区开放麦

通用目标检测工具 MMDetection3.0 | CVPR 2023 （全英分享）

【10月29日Arxiv】浙大提出OmniSep全模态声音分离框架；2024年10月29日arXiv cs.CV发文量约191余篇，减论Agent

Figure 02 人形机器人在宝马的斯帕坦堡工厂分拣汽车零件具身智能机器人开始群体协作

MindSearch：AI 时代的“思考型”智能搜索引擎

多模态大模型的前奏：迈向真实世界的通用感知 | 热门研究云际会#2

科研案例|基于 PyBullet 的具身智能软硬件平台 BestMan

Ferret-UI 2：拥有跨平台UI理解的多模态大模型