V
主页
Contrastive Prefence Learning: Learning from Human Feedback without RL
发布人
论文简述:在这篇名为Contrastive Prefence Learning: Learning from Human Feedback without RL的论文中,作者提出了一种新的方法来学习人类反馈中的偏好,而无需依赖强化学习(RL)。这种方法基于人类的遗憾感而不是奖励函数来学习最优策略。通过使用最大熵原理和对比学习目标,作者提出了一个名为Contrastive Preference Learning(CPL)的方法,该方法可以应用于任意MDPs,从而能够优雅地处理高维度和序列化的RLHF问题,同时比先前的方法更简单。论文的主要贡献在于提出了一种新的学习方法,无需依赖强化学习就能从人类反馈中学习到偏好。这种方法避免了传统的RLHF方法在优化方面的挑战,使得CPL能够在各种复杂的RLHF问题上实现高效的学习和适应。此外,CPL具有完全的非确定性策略、简单的对比学习和适用于任意MDPs的特点,使其在各种应用场景中具有广泛的应用前景。 论文链接: https://arxiv.org/pdf/2310.13639
打开封面
下载高清视频
观看高清视频
视频下载器
IsaacLab+rsl_rl强化学习
RL vs MPC,LeCun:MPC,胜!我不看好强化学习
RA-L 24浙大最新成果Parkour with Implicit-Explicit Learning Framework for Legged Robots
RLVF: Learning from Verbal Feedback without Overgeneralization
PACC:使用 MPC 的四足机器人高负载协作搬运被动臂方法
Learning to Learn Faster from Human Feedback with Language Model Predictive Cont
Improving Summarization with Human Edits
使用CARLA-SB3-Training-Environment训练的自动驾驶RL模型效果演示
基于Q-learning求解机器人路径规划问题
Parrot: Pareto-optimal Multi-Reward Reinforcement Learning Framework for Text-to
Contrastive Chain-of-Thought Prompting
In-Context Principle Learning from Mistakes
机器人展示未来能做什么
[RA-L 2020] Object Recognition, Contact Simulation, Detection, and Control
PiPER:仅售 2,499 美元 AgileX 的下一代轻型机械臂!
基于生成式强化学习的指令上下文增强模型:ICE-GRT
一次性训了一个带fall recovery 和 velocity tracking的policy,目前步态看着还成
SOTOPIA-$π$: Interactive Learning of Socially Intelligent Language Agents
青龙人形机器人开源强化学习库GymLoong测试
人形双足模仿学习强化学习AMP ASE Exbody求助
终于玩上了!在Isaac实现unitree H1的运动仿真
Offline Actor-Critic Reinforcement Learning Scales to Large Models
基于多智能体强化学习的多小车建图与导航
人形机器人腿部结构 基于 4DoF 球面并联机构
Are Large Language Models Post Hoc Explainers?
四足运动:用三种不同的方法在崎岖地形上行走
基于生成式模拟的机器人技能学习方法
An Image is Worth Multiple Words: Learning Object Level Concepts using Multi-Con
上海交大张伟楠强化学习课程第1讲:强化学习简介II
WRC2024 逐际动力 P1 抗扰动 Live Demo
从人类反馈中学习:纳什学习在大型语言模型中的应用
数学与AI结合的新里程碑:Lean4专用DeepSeek语言模型,全新蒙特卡洛树搜索变体
Touchdesigner+Arduino教程预告🤩空间转换! | TD教程 | Touchdesigner引玉课堂 | Alexxxxxi
VeRA: Vector-based Random Matrix Adaptation
Visual In-Context Prompting
上海交大张伟楠强化学习课程第16讲:基于扩散模型的强化学习
Editing Personality for LLMs
Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection
LLaVA-Interactive: 一种多模态人机交互研究原型
[IROS 2024] 通过分布式优化加速腿式机器人的模型预测控制