V
主页
京东 11.11 红包
ICML'24开源 迈向真实世界!LEO:3D世界中的具身通才Agent
发布人
ICML'24开源 | 迈向真实世界!LEO:3D世界中的具身通才Agent 在微信公众号「3DCV」回复:「原论文」,获取论文代码和链接,赶快学起来! 借助大型语言模型(LLMs)的大量知识和学习方案,最近的机器学习模型在构建通用性代理方面取得了显著成功,展示了在多个领域包括自然语言处理、计算机视觉和机器人技术中解决通用任务的能力。然而,一个重要挑战仍然存在,因为这些模型在理解和与3D世界交互方面表现出有限的能力。我们认为这种限制严重阻碍了当前模型执行实际任务并进一步实现通用智能的能力。为此,我们引入了一种体现在3D世界中感知、基础、推理、规划和行动方面出色的多模态多任务通用代理。我们提出的代理,称为LEO,在两个阶段使用共享的基于LLM的模型架构、目标和权重进行训练:(i)3D视觉-语言对齐和(ii)3D视觉-语言-行动指令调整。为了促进训练,我们精心策划并生成了一个包含对象级别和场景级别的多模态任务的大规模和复杂的广泛数据集,需要深入了解和与3D世界进行交互。通过严格的实验,我们展示了LEO在广泛任务范围内的显著熟练度,包括3D字幕、问题回答、体验推理、体验导航和机器人操纵。我们的消融结果进一步为未来体验通用代理的发展提供了有价值的见解。@3D视觉工坊
打开封面
下载高清视频
观看高清视频
视频下载器
极快跟踪一切!DOT:无惧遮挡!
牛津VGG团队最新开源!Flash3D:一张图像重建整个3D场景!通用性超强!
“KAN爷”杀疯了!KAN+特征提取,顶会速成创新热点!
MIT重磅开源!别再用COLMAP了!FlowMap给你最精确的SfM!
从零到一!打造多Agent协作AI全栈应用:前端服务构建及接口,crewAI、Flask与Vue.js的完美结合!支持GPT、国产大模型与Ollama本地大模型
清华搞定无人机!LVCP:雷达-视觉紧耦合协同定位!无需先验地图和初始位姿!
【Langchain-Chatchat】一键包 可离线部署的RAG与Agent 0.3.1.3全新版本
迈向真实世界的一大步:4D-GS建模实时动态场景!
给任何模型上色!腾讯打通三维重建最后一关:高质量纹理生成!
中科院新作!即插即用的meshing模块!精确构建无动态mesh地图,还能纠正里程计!
光学3D测量技术原理及应用
具身智能!基础知识
【2024·B站推荐】一口气学完【Python中的算法和数据结构】Python数据结构精讲 程序员面试必备_Python基础_Python入门_Python开发
第249集《为什么说垂直领域的LLM Agent是新的10亿美元SaaS机会》
CVPR 2024开源 VSRD:无需LiDAR和标注使用2D渲染解决3D检测的新范式!
吴恩达《使用Amazon Bedrock的无服务器的智能工作流Serverless Agentic Workflows with Amazon Bedrock》
吊打ORB3!73Hz!南洋理工重磅开源AirSLAM:无惧复杂光照的超强点线视觉SLAM!
ICLR‘24 Spotlight 首个十亿级别3D通用大模型
从零到一!打造多Agent协作AI全栈应用:后端服务构建及联调,CrewAI、Flask与Vue.js的完美结合!支持GPT、国产大模型与Ollama本地大模型
Claude自主操控电脑,漫天数据都能找,打工人泪目了
当MVS遇上Gaussian MVSGaussian 快速、可泛化的高斯重建框架!
闭环性能炸裂开源VADv2端到端矢量化自动驾驶新SOTA
大作业|激光-视觉-IMU-GPS融合SLAM算法
[IROS2021] 使用镜面反射减少机器人视觉系统中的遮挡
四元数基础
英伟达最新开源|EmerNeRF全面基于NeRF的自动驾驶仿真框架无需分割!
上海 AI Lab&同济大学!基于八叉树结构的3D高斯体渲染方法,实现一致的实时渲染性能
高通提出无监督和跨单元部署的实时、准确、一致的视频语义分割
CVPR'24开源 MASA万能匹配一切、跟踪一切!
中科院最新CityGaussian:VRAR时代的城市重建新标杆
Power:自动驾驶中鸟瞰视图下端到端实例预测
ECCV'24 | 更快更准!Meta最新FPV-NeRF:将NeRF完美应用FPV!
CVPR'24 复旦最新3D交互大模型LL3DA来袭!
NeRF巅峰之作!超快端到端MeshLRM 实现不到1s的高质量重建!
2.4倍加速!PRAM最新开源的视觉定位模型!解锁以地图为中心的学习!
中国科大 | 性能增强的四旋翼运动规划器用于复杂动态环境中的自主飞行
NVIDIA再斩CVPR冠军方案!Hydra-MDP:突破端到端多模态自动驾驶!
Claude 3.5重磅升级,抢先OpenAI,大模型像人一样操控电脑
强推!这可能是B站最全的(Python+机器学习+深度学习)系列课程,从入门到精通,通俗易懂,还学不会我退出IT界!AI人工智能|神经网络|项目实战