V
主页
英伟达最新!Cube-LLM:通过视觉语言模型,真正感知3D世界
发布人
英伟达最新!Cube-LLM:通过视觉语言模型,真正感知3D世界。链接:https://arxiv.org/pdf/2405.03685 多模态大型语言模型(MLLMs)在多种二维视觉和语言任务中展现了令人难以置信的能力。我们将MLLMs的感知能力扩展到三维空间中的图像定位和推理。为此,我们首先通过在一个共同的任务形式下结合多个现有的二维和三维识别数据集,开发了一个名为LV3D的二维和三维大规模预训练数据集:多轮问答。接下来,我们介绍了一种新的MLLM,名为Cube-LLM,并在LV3D上对其进行预训练。结果表明,仅通过数据扩展就可以实现强大的三维感知能力,而无需针对三维的特定架构设计或训练目标。Cube-LLM展示了与LLMs相似的有趣特性:(1)Cube-LLM可以利用链式思维提示从二维上下文信息中改进三维理解。(2)Cube-LLM可以遵循复杂多样的指令,并适应多样化的输入和输出格式。(3)Cube-LLM可以接受视觉提示,如来自专家的二维框或一组候选三维框。我们在户外基准测试上的实验表明,Cube-LLM在Talk2Car数据集上的三维定位推理任务中比现有基线高出21.3个APBEV点,在DriveLM数据集上的驾驶场景复杂推理任务中高出17.7个点。此外,Cube-LLM在一般MLLM基准测试中,如refCOCO二维定位任务(平均得分为87.0),以及视觉问题回答基准测试,如VQAv2、GQA、SQA、POPE等,也显示出具有竞争力的结果。
打开封面
下载高清视频
观看高清视频
视频下载器
牛津大学最新!室内室外SOTA | 用于视觉重定位的地图相对姿态回归(CVPR'24 HighLight)
Waabi最新!UnO:用于感知和预测的SOTA模型(超越监督方式)
2022最新 | HybridNets:端到端感知网络(检测+可行使区域分割+车道线三大任务)
浙江大学最新 | BEVPlace++:激光雷达全局定位方法,超越当前SOTA!泛化性能极佳
LeTS-Drive:自动驾驶中不确定场景下的实时路径规划算法
CVPR 2023 | DINER: 基于深度感知图像的神经辐射场
CVPR2024 | 逆天了!一统所有目标感知任务,目标感知基础模型GLEE
3DShape2VecSet:神经场和生成扩散模型的3D形状表示
CVPR 2023 | 协同感知在真实世界就不能打了?V2V4Real告诉你很能打!世界首款V2V协同感知数据集
CVPR 2023最新!基于NeRF监督的深度立体视觉
直接制霸天空!ICRA’24 最新基于强化学习的MPC算法,苏黎世大学出品!
上海AI Lab最新!Depth any Video:提升深度估计的一致性以及合成更多真实带有标注的数据
什么是端到端自动驾驶?什么是基础world model?
太强了!RenderOcc:仅使用2D标签和Nerf监督视觉Occupancy
Segment Any Point Cloud:运用视觉基础模型分割一切点云
【NeurIPS 2023】自动驾驶多模态感知蒸馏新方案来了!
分类突破!自动驾驶中的Occupancy感知方法分类
没有BEV特征如何做BEV感知?(旷视团队分享PETRv2/StreamPETR/CMT等SOTA方案)
端到端趋势下,传统规控还有未来么?
比赛冠军方案!英伟达最新 | Hydra MDP:端到端多模态规划
【量化交易教程】全100集(完整版)清华大佬耗时一月讲完的系统python金融分析与量化交易实战课程,包含基础教程,进阶学习,项目实战案例讲解,存下吧,比啃书好
上交&诺亚最新 | 大幅提升!OccGen:面向自动驾驶的生成式多模态3D占用预测
【ECCV 2022】Google最新视觉主干MaxViT大放异彩:分类准确率再创新高
相机标定任务概述 | 哥伦比亚大学相机模型与标定系列课程(1)
CVPR 2023 面向自动驾驶场景的纯视觉三维语义占有预测
ICLR'24无图新思路!LaneSegNet:基于车道分段感知的地图学习(实时推理+三项SOTA)
CVPR 2023 | BEVHeight:基于视觉的道路3D目标检测的鲁棒框架
端到端算法是什么?自动驾驶领域是怎么做的?
详解CPU的并行处理优化方向!基于TensorRT的CNN/Transformer/检测/BEV模型四大部署代码+CUDA加速!
地平线最新SOTA!Sparse4D:迈向长时序稀疏化3D目标检测的新实践
ICCV 2023 | NeO 360: 用于户外场景稀疏视图合成的神经场
港科技最新SLAM数据集!SLABIM:香港科技大学主楼SLAM-BIM耦合数据集
下一波AI浪潮:物理AI | 英伟达 | 2024.10.25
突破次元壁!4D Gaussian Splatting来袭
定位误差小于20cm!MT F-CVT:增强泊车区域感知
【IROS 2022】机器人超硬核点云配准方法:Linewise Non-Rigid Point Cloud Registration
大语言模型攻击概览
最新!如何使用深度强化学习在未知环境中进行导航?
清华大学&英伟达 | DriveEnv-NeRF:基于NeRF实现高逼真自动驾驶场景,离线测试!
500公里超大型SLAM数据集!多视觉异步SLAM系统(ICRA 2021)