大型语言模型与生成式AI——人类反馈强化学习6——RLHF - 通过强化学习进行微调

发布人

大型语言模型与生成式AI——人类反馈强化学习6——RLHF - 通过强化学习进行微调

#大型语言模型与生成式AI

我们来看看如何使用奖励模型在强化学习过程中更新LLM权重，制作一个与人类一致的模型。

首先，从提示数据集中传递一个提示给LLM，LLM生成一个完成项。

然后，将此完成项和原始提示发送给奖励模型。奖励模型根据其训练的人类反馈评估这对，并返回一个奖励值。高值代表更一致的响应，低值则相反。

然后，将此奖励值传递给强化学习算法以更新LLM的权重。这一系列步骤构成了RLHF过程的一个迭代。如果过程有效，您会看到每次迭代后奖励都在提高。您将继续这个迭代过程，直到模型达到某个评估标准。

最后，我们称微调后的模型为与人类一致的LLM。


课程地址：https://www.coursera.org/learn/generative-ai-with-llms/lecture/sAKto/rlhf-fine-tuning-with-reinforcement-learning

播放列表：
油管：https://www.youtube.com/watch?v=X7r4rL2T2lg&amp;list=PLiuLMb-dLdWL4KBaU3FTM5f_oMcSvXcZw
B站：https://www.bilibili.com/video/BV12s4y1r7jf/?spm_id_from=333.999.section.playall&amp;vd_source=e71f65cbc40a72fce570b20ffcb28b22

打开封面下载高清视频观看高清视频视频下载器

大型语言模型与生成式AI——人类反馈强化学习6——RLHF - 通过强化学习进行微调

大型语言模型与生成式AI——使用指令对LLM进行微调4——多任务指令微调

大型语言模型与生成式AI——使用指令对LLM进行微调5——模型评估

大型语言模型与生成式AI——人类反馈强化学习5——RLHF - 奖励模型

大型语言模型与生成式AI——参数高效微调3——PEFT技术2 - 软提示

大型语言模型与生成式AI——人类反馈强化学习8——奖励攻击

大型语言模型与生成式AI——介绍LLM和生成式AI项目的生命周期 2——介绍

大型语言模型与生成式AI——人类反馈强化学习1——引言

大型语言模型与生成式AI——使用指令对LLM进行微调2——指令微调

大型语言模型与生成式AI——介绍LLM和生成式AI项目的生命周期 1——课程介绍

大型语言模型与生成式AI——人类反馈强化学习3——通过人类反馈进行强化学习（RLHF）

大语言模型微调之道1——介绍

大型语言模型与生成式AI——参数高效微调1——参数高效微调（PEFT）

大语言模型微调之道4——指令微调

大型语言模型与生成式AI——介绍LLM和生成式AI项目的生命周期7——用Transformer生成文本

大型语言模型与生成式AI——人类反馈强化学习9——扩大人类反馈的规模

大型语言模型与生成式AI——介绍LLM和生成式AI项目的生命周期9——生成配置

大型语言模型与生成式AI——人类反馈强化学习4——RLHF - 获取人类的反馈信息

一分钟学 AI 之 —— 什么是生成式 AI

生成式 AI 入门教程 3 - 什么是生成式 AI - 大语言模型作为思考助手

使用Gradio构建生成式AI应用1：课程介绍

强化学习之父Richard Sutton演讲：实现AGI需要明确的目标和一个世界模型

大型语言模型与生成式AI——介绍LLM和生成式AI项目的生命周期3——生成式AI和大语言模型的输出

生成式AI学习5——编码器-解码器架构（上）概述

大型语言模型与生成式AI——介绍LLM和生成式AI项目的生命周期10——生成式AI项目的生命周期

使用Gradio构建生成式AI应用5：图文互生游戏

一分钟学 AI 之 —— 负责任的 AI 开发

大型语言模型与生成式AI——介绍LLM和生成式AI项目的生命周期4——LLM的使用案例和任务

大语言模型微调之道2——为什么要微调

如何让小型语言模型高效工作。Yejin Choi在2024年数据与AI峰会上发表演讲（双语字幕）

一分钟学 AI 之——什么是提示工程

简单粗暴！1小时理解大模型预训练和微调！了解四大LLM微调方法，大模型所需NLP基础知识，基于人类反馈的强化学习、P-Tuning微调、Lora-QLora

马斯克访谈 —— 尼古拉·坦根采访，谈 AI、特斯拉、中国电动汽车、Twitter（X）、SpaceX、中国电动汽车、企业文化与管理、火星殖民

马斯克的最新演讲，揭示 SpaceX 登陆火星宏伟蓝图，开创人类多行星文明新纪元

面向所有人的生成式 AI 入门课程 5 - 生成式 AI 应用 - 写作

桥水基金的视角:当前AI产品实用性有限的深层原因以及下一阶段突破路径

面向所有人的生成式 AI 入门课程 7 - 生成式 AI 应用 - 聊天

WWDC24: 在Apple GPU上训练您的机器学习和AI模型 | Apple

生成式AI学习6——编码器-解码器架构（下）Lab演练

生成式AI学习10——创建图像字幕模型（上）概述

Geoffrey Hinton 对 AI 未来的见解（双语字幕）