V
主页
IROS 24 复旦大学发布! Polaris 基于Syn2Real视觉基础和大语言模型的开放式交互机器人操作
发布人
本文研究了桌面场景下的开放式交互机器人操作任务。虽然最近的大语言模型(LLMs )增强了机器人对用户指令的理解能力,但它们缺乏视觉基础,限制了它们与环境进行物理交互的能力。这是因为机器人需要在物理工作空间内定位目标物体进行操作。为此,我们提出了一种名为Polaris的交互机器人操作框架,该框架结合了GPT-4和具备视觉基础的模型,以实现感知与交互的整合。为了实现精确操作,这些具备视觉基础的模型必须为目标物体提供详细的物体姿态,而不仅仅是识别图像中的相关像素。因此,我们提出了一种新颖的从合成数据到现实(Syn2Real)的姿态估计流水线。该流水线利用渲染的合成数据进行训练,然后将其应用于现实世界的操作任务。真实世界的表现证明了我们提出的流水线的有效性,并强调了其扩展到更一般类别的潜力。此外,实物机器人实验展示了我们的框架在抓取和执行多个操作任务方面的出色表现。这表明其有潜力推广到桌面之外的场景。 文章名称:【Polaris: Open-ended Interactive Robotic Manipulation via Syn2Real Visual Grounding and Large Language Models】 文章链接:http://arxiv.org/abs/2408.07975 项目主页:https://star-uu-wang.github.io/Polaris/
打开封面
下载高清视频
观看高清视频
视频下载器
EDG冲锋摄像|我知道这很抽象 但你当时采访就是这么干的
2024年第65届IMO上,陶哲轩演讲表示AI技术其中以大型语言模型(LLMs)为代表也已经有大约 5 年的历史,但直到最近,AI输出才慢慢达到了人类的水平。
2024年广东省工程实践与创新能力大赛,智能物流搬运赛项,初赛,B37,2024年7月27日
35年首次证明!神经网络登上Nature:神经网络具有人类泛化能力,是人工智能的又一重大突破!
OpenAI 深夜发布最新大模型 o1 宣传片合集(AI 精翻)
如何实现交互与视觉的高级融合
【全300集】清华大学2024版Transformer教程!入门到进阶,全程干货讲解!拿走不谢!(神经网络/NLP/深度学习/BERT/大模型/GPT/RNN)
【六哥答疑】视觉SLAM目前效果最好的开源算法有哪些?
清华等联合开源!动态 3D 高斯超高保真头部重建
一条视频解锁苹果全部AI新功能!2分钟浓缩速览
马斯克:AI发展速度比任何技术都要快
哈工大发布|首个基于线特征的红外惯性里程计ETIO,性能超过了最先进的TIO!
MIT等开源|实时构建3D场景图,机器人探索大规模环境的空间感知算法!
做了一个时速超过一百每小时的扫地机器人
Google 前 CEO 埃里克·施密特近期在斯坦福 CS323 课堂上的访谈(完整版)
一个神级代码复现网站,里面99%的论文都能找到!
研究生竟然这样找创新点?一年水了5篇SCI!不需要脑子的5大创新点套路,研一研二必看!
这不是CG!任意视角下均可互动,实时渲染逼真的驾驶场景!浙大最新开源,AAAI2023!
华盛顿大学与英伟达联合开源!用于大规模仿真环境和机器人运动控制
这个数据集真强!地下隧道、不同照明等情况下,多机器人视觉SLAM!MIT等最新开源!
法国团队最新开源!3D高斯溅射可以生成三维网格啦!
2022年度盘点:十大最佳SLAM开源算法
国内外半数机器人公司都在用的开源免费机器人项目ALOHA,再次重磅更新,学习和协作能力更加强大。aloha堪称机器人领域里的安卓,基础性能极为优秀。
【自动驾驶技术】花18000大价钱买的无人驾驶课程,从入门到提升的自动驾驶算法——感知实战、视觉定位、预测系统、路径规划、控制理论、强化学习
吹爆!目前B站讲的最透彻的MATLAB教程全套完整版,包含所有干货内容。强烈建议收藏
全新模型OpenAI o1发布,会思考的AI实在太强了!
清华等联合开源!高保真3D 高斯建模人体化身
香港理工最新开源|实时LiDAR定位与Mesh建图,首个基于CPU的实时激光雷达SLAM系统!
[转载]基于FPGA的YOLO算法从入门到精通
好尴尬...实验室一块GPU都没有怎么做深度学习?
AI 已经这么可了 以后还有模特什么事
照片转动漫,原来二次元的冰冰长这样!可试玩!开源!
普通人用涂鸦也能建模了!浙大开源!上手简单!
AI已经这么可了 以后还有演员什么事
2021年度盘点:十大最佳开源SLAM算法!
openai o1模型背后原理分析(一) 龙哥推荐这3篇论文就行啦
ETHZ开源|可与任何VIO前端兼容的SLAM通用后端!
知网,再见!中科院推出8000万免费数据库,可检索1.7亿资源,测试非常流畅好用!刚测试了下,非常流畅好用!强烈建议所有本硕博学生找AI方向的论文用起来!
真正“意义”上的人工智能!😂😂
双目VIO+点线特征+抗动态光照! 南洋理工最新开源!