ICML'24开源！LEO：首个三维世界中的具身通用智能体-上篇 - 视频下载 Video Downloader

ICML'24开源！LEO：首个三维世界中的具身通用智能体-上篇

发布人

黄江勇
北京大学智能学院在读博士，北京通用人工智能研究院(BIGAI)通用视觉实验室实习研究员。研究方向为多模态学习，场景理解，具身智能。

直播大纲
1.研究背景与动机
2.具身通用智能体: LEO
3.三维指令微调数据集: LEO-align &amp; LEO-instruct
4.实验结果与demo展示

打开封面下载高清视频观看高清视频视频下载器

具身智能势不可挡GRUtopia首个城市级具身智能仿真平台“浦源·桃源”

国内首个面向具身智能方向的理论与实战系统课程

光学3D测量技术原理及应用

如何进行三维重建？从单帧深度估计到完整模型重建

CVPR'24 Symphonies：基于实例级建模的3D场景占用

讲座10 | 具身智能视角下的三维场景理解、生成与交互——北京通用人工智能研究院研究员贾宝雄

李飞飞创业三个月，狂揽10亿美金，硅谷吸金狂潮涌起

四旋翼模型与控制基础

PID控制器原理讲解

传感器与遥控器校准原理

Transcrib3D：基于大语言模型三维指称表达理解SOTA

深度相机概述

三维扫描仪技术概览+高亮透明户外扫描挑战

ECCV'24开源 | 拳打ORB3脚踢DROID！强化学习+VO=精度暴涨19%！

基于面结构光的高反射物体重建方法关键技术分享[相位偏折术]

港科大最新开放词汇3D物体检测新SOTA-CoDAv2p-下篇

自驾场景快速训练！CarDreamer：首个开源世界模型自动驾驶平台

ICLR‘24 Spotlight 首个十亿级别3D通用大模型

高反光表面三维视觉测量方法

五分钟开发一款自己的点云处理软件(python)

传统深度估计方法实战

单目深度估计|连续帧方法实战课

Linux驱动基础知识与SLAM关系

LVI-SAM代码实战与评估

BEV与Occupancy入门参考资料必看

ORB-SLAM3系列之特征匹配（三 MLPnP，词袋模型）

CVPR'24开源通过3D GS进行整体城市3D场景理解！

Open3D-三维数据结构

中科院新作！即插即用的meshing模块！精确构建无动态mesh地图，还能纠正里程计！

吊打ORB3！73Hz！南洋理工重磅开源AirSLAM：无惧复杂光照的超强点线视觉SLAM！

LVI-SAM|视觉-惯性子系统（VIS）代码精读

复合机器人+多模态大模型=人机协作具身智能体

CVPR'24开源 | 吊打一切VINS！又快又好的视觉惯性导航系统

（公开课）视觉SLAM原理与ORB-SLAM3系列算法

Python之课前准备

格雷码辅助实现的三维面形测量：从静态到动态

透彻剖析室内外激光SLAM算法与实战系列课程-激光SLAM精讲（下）

CVPR2023开源无纹理和重复纹理也能实现鲁棒的特征匹配！

Vision Language Action研究现状

GS-SLAM：具有3D高斯溅射的稠密视觉SLAM