V
主页
从人类反馈中学习:纳什学习在大型语言模型中的应用
发布人
【加群】 一起来刷arxiv,请加vx: pwbot02(请备注:b站arxiv) 【论文标题】 从人类反馈中学习:纳什学习在大型语言模型中的应用 【论文简述】 本文提出了一种名为纳什学习从人类反馈(NLHF)的新方法,用于优化大型语言模型(LLMs)以更好地符合人类偏好。NLHF方法摒弃了传统的基于奖励模型的强化学习框架,转而关注学习一个偏好模型并计算其纳什均衡。与基于奖励模型的方法相比,NLHF具有更广泛的人类偏好表示能力、策略无关性以及更好地与多样化人类偏好保持一致的潜力。文章介绍了在表格策略表示下的Nash-MD算法和基于梯度下降的深度学习架构算法Nash-MD-PG和Nash-EMA-PG。实验结果表明,NLHF在文本摘要任务中表现出良好的性能,为实现LLMs与人类偏好的对齐提供了一个有前景的研究方向。 【论文链接】 https://arxiv.org/abs/2312.00886
打开封面
下载高清视频
观看高清视频
视频下载器
对比激活添加:精确操控大型语言模型行为的新方法
探索大型语言模型在工业芯片设计中的应用
探索ChatGPT与大型语言模型(LLMs)背后的技术
进来看看吧!零基础入门【王树森深度强化学习】完整版教程,含配套项目代码—王树森、深度强化学习、人工智能、深度学习、强化学习
语言模型对齐新方法:基于对比不似然训练的判断反馈
基于上下文调整的检索增强生成方法
大规模语言模型在多模态音乐理解与生成中的应用
基于生成式强化学习的指令上下文增强模型:ICE-GRT
多模态模型对齐与强化学习从人类反馈优化
全网最通俗易懂,大模型偏好对齐RLHF从PPO推导DPO再推导simPO
【AI Drive】ACL 2021:利用对比学习增强预训练语言模型的实体与实体间关系理解
大型语言模型潜在知识发现的挑战
基于大型语言模型的幻觉综述
利用数据中心方法提升大型语言模型在金融领域的应用
Paper Reading Group基于知识增强的语言表示模型
面向大型语言模型的有约束文本生成方法
基于语言模型的知识探测和推理方法
LoRAShear:一种有效的大型语言模型结构压缩方法
语义压缩:扩展大型语言模型的上下文窗口
12大模型全栈-强化学习05-RLHF实战-端到端全流程解决方案-轩辕大模型强化学习完整流程介绍(数据+奖励模型+强化学习调参经验)
用视觉语言模型自动生成奖励函数,训练多目标强化学习智能体
大型语言模型 (LLMs) 在应对需要任务规划和使用外部工具的任务时表现出了熟练的能力
大型语言模型在链式思维推理中的应用
强烈推荐!一套课程解决人工智能入门三步走:机器学习、深度学习、强化学习,真正适合小白自学的神级教程!
基于LLM的输入输出安全保障模型:Llama Guard在人机对话中的应用
分布式大型语言模型的互联网低成本推理与微调
大型语言模型:从训练到推理的全面综述
大型语言模型效率研究综述
基于双语文本的Skywork-13B大型语言模型研究
动画解析神经网络为什么可以学习?看计算机大佬如何通俗易懂的讲解神经网络底层逻辑原理!带你入门到实战!——(人工智能、深度学习、机器学习、机器学习算法、AI)
【上新】SIGMA free ++++++++++版发布啦
闪电注意力-2:大型语言模型处理无限序列长度的高效方法
通用视觉基础模型:多任务学习实现高效零样本迁移
大型语言模型在代码生成基准测试中表现出良好性能
利用FP8低位数据格式高效地训练大型语言模型
【人形机器人仿真】这走路姿势比我都标准
【EMNLP 2023 最佳长论文奖】揭示大型语言模型上下文学习机制:标签词作为锚点的信息流视角
ComfyUI-OMost,大型语言模型驱动图像区域合成,充分提示词的理解
基于语言、任务和指标的人工智能模型的一致性分析
人工智能视觉语言模型对视觉错觉的感知