V
主页
大模型成功背后的RLHF到底是什么?
发布人
补充内容: 技术原文:Training language models to follow instructions with human feedback - RLHF中对齐过程使用的是PPO,是强化学习方法,而且PPO过程依赖于奖励模型。这种训练方式其实很有挑战,一方面奖励模型很关键但又很难训练,另外在强化学习阶段很多参数需要调整,而且过程容易跑偏。 - 所以也有一些替代技术,比如DPO,相比PPO 更容易训练,而且不需要奖励模型。
打开封面
下载高清视频
观看高清视频
视频下载器
全网最通俗易懂,大模型偏好对齐RLHF从PPO推导DPO再推导simPO
大模型项目选择RAG还是微调:八个判断依据
第二十课:MoE
什么是混合专家模型(MoE)?
RAG增强检索是如何工作的?
如何把RAG和知识图谱结合
【李宏毅2024春最新】第8讲 生成式AI导论(中文)RLHF 大预言模型修炼史(3) by Hung-yi Lee
使用大模型时可调节的TopK、TopP到底是什么意思?
RAG实战中常见的问题
模型微调中最不需要关注的应该是GPU成本
什么是知识图谱?与大模型的关系是什么?
什么是大模型幻觉?为什么会产生幻觉?
什么是大模型量化和蒸馏?
微调一个模型需要多少GPU显存?
大模型项目落地中的五个坑
当前大模型技术能否走向AGI?
大模型是如何生成回复的?背后逻辑又是怎样?
未来一年大模型发展的八大趋势
SFT和RLHF的区别是什么?
最近火爆的GraphRAG是什么? 真的那么有用吗?
经典RAG很难解决的问题以及Agent思路
什么是模型的泛化能力?
传统AI与基于大模型AI之间的区别
经典RAG结构的问题以及几点解决思路
什么是端到端(End-to-End)模型?
通俗易懂理解大模型预训练和微调
通俗易懂理解自注意力机制(Self-Attention)
理解大模型训练的几个阶段 Pretraining,SFT,RLHF
什么是灾难性遗忘?为什么要重视它?
大模型项目选择RAG还是微调:三个案例
【官方双语】直观解释注意力机制,Transformer的核心 | 【深度学习第6章】
通俗易懂理解全量微调和LoRA微调
通俗理解大模型领域关键术语以及它们之间的关系
通俗易懂理解提示工程、RAG和微调
关于Llama3.1模型简要总结&启示
什么是生成式AI?生成AI不等于大模型,判别模型和生成模型
从Scaling laws来分析GPT5是否会远超GPT4
[RLHF] 从 PPO rlhf 到 DPO,公式推导与原理分析
RLHF训练法从零复现,代码实战,大语言模型训练
什么是In-context learning