V
主页
CMU 机器人讲座 —— 模仿学习(IRL)与从人类反馈中学习(RLHF)
发布人
摘要:模仿学习(即逆向强化学习,IRL)和从人类偏好中学习(即从人类反馈中学习,RLHF)的交互式方法已成为解决从自动驾驶到大型语言模型微调等挑战性问题的首选方法。尽管这些方法具有令人印象深刻的实证表现和强大的理论保证,但从隐式反馈中学习的交互式方法往往会带来很高的计算负担。在本讲座中,我们将讨论如何从博弈论的角度来看待这些问题,从而得出高效的还原方法,在理论和实践上保持这些方法的优势,同时大幅减少所需的计算量。具体来说,我们将讨论一种新的 IRL 范式,这种范式不需要在内环中重复求解一个困难的探索/RL 问题;我们还将讨论一种新的 RLHF 算法,这种算法避免了奖励建模和对抗性训练,同时还能稳健地应对在汇总不同人类判断时经常出现的非互易偏好。
打开封面
下载高清视频
观看高清视频
视频下载器
MIT 机器人讲座 —— MuJoCo MPC (MJPC) 介绍
ETHZ 研究:RL + 基于模型的控制: 利用按需最优控制学习灵活四足运动
斯坦福机器人讲座 —— 大规模预训练模型时代的 机器人学习
UIUC 机器人讲座 —— 机器人学习:通过理解第一视角视频(Robot Learning by Understanding Egocentric Video)
【Actuate 2024】中文字幕|机器人基础模型 - Robotic Foundation Models|Sergey Levine
佐治亚理工学院研究 —— 人体动捕训练四足机器人(类人动作,如打网球)
MIT 机器人讲座 —— Learning Abstractions from Humans
CMU 机器人讲座 —— Where's RobotGPT
IROS 2023 讲座 —— 从基于模型的全身控制到利用 ML 进行足式人形机器人操作
CoRL 讲座 Scott Kuindersma - 基于模型的控制有助于学习
ETHZ 四足机器人研究 —— 学习具有风险意识的运动(ICRA 2024)
MIT 机器人讲座 —— 利用感知与 AI 增强人机交互(人与自然交互)
CMU 最优控制 2024 助教补充 第 5 讲 动态规划与 MPC
宾大机器人讲座 —— 多接触操作中的学习与控制
西北大学机器人讲座 —— 机器人学习的控制原理
dreamWaq复现尝试
【揭秘】五指灵巧手DexHand021 产线组装的秘密
CoRL 机器人讲座 —— 通向通用机器人之路
Diffusion Policy 结合 PPO 模仿+强化 (下)
教程:使用 CVXPY 进行凸优化 - SciPy 2022
2024 斯坦福 凸优化教程 Stephen Boyd 第一讲
ICRA 2024 - Learning Emergent Gaits with Decentralized Phase Oscillators
用于控制、推理和学习的随机扩散
FAIR(Meta)机器人讲座 —— 机器人灵巧操作(Robotic Dexterous Manipulation)
ETH + NVIDIA 研究 —— Orbit: 交互式机器人学习环境的统一仿真框架
MIT 欠驱动机器人学 2024 第 10 讲 Trajectory Optimization I
【LeRobot】中文字幕|VQ-BeT:LeRobot Research Presentation 4 by Mahi & jay
MIT —— 机器人运动实验室
RLHF基于人类反馈的强化学习动画讲解(LLM)
深度无监督学习 UC 伯克利 2024 第 3 讲 流模型
CMU 机器人讲座 —— 面向大规模多智能体的智能规划(移动机器人,无人机)
宾大 GRASP 讲座 —— 旧瓶装新酒: 实现机器人学习民主化的结构化方法
用于野火的自主无人机和人工智能 : CMU 机器人研究所
开源 机器人操作数据集 —— DROID: 大规模机器人操作数据集
CMU 最优控制 2024 第 3 讲 Optimization Pt 1
MuJoCo MPC 应用示例:人形机器人跟踪
Dobb·E 一个开源的家庭机器人操作臂端到端学习训练框架
斯坦福大学研究 - 用于机械手设计的动力学扩散模型
RoMI Lab 研究 —— 通过全身 MPC 和最优区域选择实现感知运动
EPFL 四足机器人研究 —— ManyQuadrupeds: 多种类四足机器人学习运动策略(ICRA 2024)