V
主页
[ICRA 2024] PixelNav: 基于RGB空间的通用导航技能,无缝衔接大模型的感知规划能力
发布人
本文是对发表于ICRA 2024论文Bridging Zero-shot Object Navigation and Foundation Models through Pixel-Guided Navigation Skill的解读。该论文由北京大学董豪超平面实验室完成,第一作者为访问学生蔡文哲。本文提出了一种通用的视觉导航技能(PixelNav), 此项技能以像素点而非坐标点作为导航目标,实现了一种具有泛化性的基于RGB输入的路径规划方法;PixelNav以像素作为目标的建模方式无缝衔接现有大模型在RGB图片上感知与推理能力,以此技能为基础,本文设计了一种基于大模型的规划流程,实现了不依赖与定位建图的开放词域物品导航(Open-Vocabulary Object Navigation)系统。
打开封面
下载高清视频
观看高清视频
视频下载器
[ICRA 2024] 远近视角结合,轻松应对点云噪声
[ICRA 2024] DiscussNav:基于大模型多专家讨论的视觉语言导航框架
[CoRL 2024] InstructNav:通用指令导航大模型系统
[NeurIPS 2023] 需求驱动导航:对齐人类需求,让机器人更高效
[CVPR 2024] 基于掩码聚类的高精度开放词汇三维实例分割
[ICRA 2024] 可抓取性引导的移动操作算法
李建教授:潜在空间中的扩散模型和一致性模型
[CVPR 2024] 单目三维人体网格估计的概率性方法框架
[IROS 2024] Best Application Paper Finalist:自我纠正的组装策略
【讲座回放】洪逸宁:面向具身智能的3D基础大模型
[ICRA 2023] DexGraspNet:大规模灵巧机械手抓取数据集
[AAAI 2024] 重复二价拍卖中的动态预算节流方法
【讲座回放】王琛博士:度量空间中具有强弱距离预言机的聚类和最小生成树问题
[ECCV 2024] 未知关节状态的实时机器人位姿预测
南京师范大学数学科学学院2024级《解析几何》课程2024年10月21日课堂实录
欢迎加入北京大学前沿计算研究中心-2024
3D建模软件之间到底有什么区别?3dmax/maya/zbrush
给孩子看的《山海经》动画,让孩子了解我们中华的神话故事!
LLM智能应用开发 L7:大语言模型解析 IV FlashAttention初探 [2024南京大学计算机学院选修课]
[ICCV 2023] 人体运动表征学习的统一视角
早读神器!新教材!24秋季新人教版七年级上 Unit6
祝北京大学2024届图灵班毕业生:毕业快乐,前程似锦!(照片回顾篇)
北京大学董豪-《深度学习入门与实践》第三节:计算机视觉算法
北京大学李彤阳-《算法分析和复杂性理论》第十四节:Randomized algorithms(下)
[NeurIPS 2023] ChimpACT:理解黑猩猩行为的纵向数据集
北京大学李彤阳-《量子计算》第十一节:量子游走
北京大学李彤阳-《量子计算》第四节:通用量子门与Deutsch-Jozsa算法
【抢鲜看】北京大学“图灵班”建设成果总结会暨计算机学科拔尖人才培养论坛
[RSS 2024] 复杂堆叠场景中的安全高效抓取
【讲座回放】赵鼎教授:可信赖智能的理论与应用
【讲座回放】任轩笛:基于ETH的参数化不可近似性假设
【讲座回放】吴旋博士:核心集构造算法的最新进展
早读神器!新版本!24秋季新人教版九年级全一册 Unit14
北京大学李彤阳-《算法分析和复杂性理论》第十四节:Randomized algorithms(上)
北京大学李彤阳-《量子计算》第六节:量子相位估计和求阶算法
【讲座回放】冯逸丁博士:自动报价市场中的策略性预算选择问题
【讲座回放】王鑫博士:人机合作中的多模态智能体
【讲座回放】任瀚林:电路复杂性下界
早读神器!新版本!24秋季新人教版九年级全一册 Unit11
【讲座回放】张晨浩:算法合谋的监管