Contrastive Prefence Learning: Learning from Human Feedback without RL

发布人

论文简述：在这篇名为Contrastive Prefence Learning: Learning from Human Feedback without RL的论文中，作者提出了一种新的方法来学习人类反馈中的偏好，而无需依赖强化学习（RL）。这种方法基于人类的遗憾感而不是奖励函数来学习最优策略。通过使用最大熵原理和对比学习目标，作者提出了一个名为Contrastive Preference Learning（CPL）的方法，该方法可以应用于任意MDPs，从而能够优雅地处理高维度和序列化的RLHF问题，同时比先前的方法更简单。论文的主要贡献在于提出了一种新的学习方法，无需依赖强化学习就能从人类反馈中学习到偏好。这种方法避免了传统的RLHF方法在优化方面的挑战，使得CPL能够在各种复杂的RLHF问题上实现高效的学习和适应。此外，CPL具有完全的非确定性策略、简单的对比学习和适用于任意MDPs的特点，使其在各种应用场景中具有广泛的应用前景。
论文链接： https://arxiv.org/pdf/2310.13639

打开封面下载高清视频观看高清视频视频下载器

Contrastive Prefence Learning: Learning from Human Feedback without RL

IsaacLab+rsl_rl强化学习

RL vs MPC，LeCun：MPC，胜！我不看好强化学习

RA-L 24浙大最新成果Parkour with Implicit-Explicit Learning Framework for Legged Robots

RLVF: Learning from Verbal Feedback without Overgeneralization

PACC：使用 MPC 的四足机器人高负载协作搬运被动臂方法

Learning to Learn Faster from Human Feedback with Language Model Predictive Cont

Improving Summarization with Human Edits

使用CARLA-SB3-Training-Environment训练的自动驾驶RL模型效果演示

基于Q-learning求解机器人路径规划问题

Parrot: Pareto-optimal Multi-Reward Reinforcement Learning Framework for Text-to

Contrastive Chain-of-Thought Prompting

In-Context Principle Learning from Mistakes

机器人展示未来能做什么

[RA-L 2020] Object Recognition, Contact Simulation, Detection, and Control

PiPER：仅售 2,499 美元 AgileX 的下一代轻型机械臂！

基于生成式强化学习的指令上下文增强模型：ICE-GRT

一次性训了一个带fall recovery 和 velocity tracking的policy，目前步态看着还成

SOTOPIA-$π$: Interactive Learning of Socially Intelligent Language Agents

青龙人形机器人开源强化学习库GymLoong测试

人形双足模仿学习强化学习AMP ASE Exbody求助

终于玩上了！在Isaac实现unitree H1的运动仿真

Offline Actor-Critic Reinforcement Learning Scales to Large Models

基于多智能体强化学习的多小车建图与导航

人形机器人腿部结构 基于 4DoF 球面并联机构

Are Large Language Models Post Hoc Explainers?

四足运动：用三种不同的方法在崎岖地形上行走

基于生成式模拟的机器人技能学习方法

An Image is Worth Multiple Words: Learning Object Level Concepts using Multi-Con

上海交大张伟楠强化学习课程第1讲：强化学习简介II

WRC2024 逐际动力 P1 抗扰动 Live Demo

从人类反馈中学习：纳什学习在大型语言模型中的应用

数学与AI结合的新里程碑：Lean4专用DeepSeek语言模型，全新蒙特卡洛树搜索变体

Touchdesigner+Arduino教程预告🤩空间转换！ | TD教程 | Touchdesigner引玉课堂 | Alexxxxxi

VeRA: Vector-based Random Matrix Adaptation

Visual In-Context Prompting

上海交大张伟楠强化学习课程第16讲：基于扩散模型的强化学习

Editing Personality for LLMs

Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection

LLaVA-Interactive: 一种多模态人机交互研究原型

[IROS 2024] 通过分布式优化加速腿式机器人的模型预测控制

人形机器人腿部结构基于 4DoF 球面并联机构