V
主页
大型语言模型与生成式AI——人类反馈强化学习6——RLHF - 通过强化学习进行微调
发布人
大型语言模型与生成式AI——人类反馈强化学习6——RLHF - 通过强化学习进行微调 #大型语言模型与生成式AI 我们来看看如何使用奖励模型在强化学习过程中更新LLM权重,制作一个与人类一致的模型。 首先,从提示数据集中传递一个提示给LLM,LLM生成一个完成项。 然后,将此完成项和原始提示发送给奖励模型。奖励模型根据其训练的人类反馈评估这对,并返回一个奖励值。高值代表更一致的响应,低值则相反。 然后,将此奖励值传递给强化学习算法以更新LLM的权重。这一系列步骤构成了RLHF过程的一个迭代。如果过程有效,您会看到每次迭代后奖励都在提高。您将继续这个迭代过程,直到模型达到某个评估标准。 最后,我们称微调后的模型为与人类一致的LLM。 课程地址:https://www.coursera.org/learn/generative-ai-with-llms/lecture/sAKto/rlhf-fine-tuning-with-reinforcement-learning 播放列表: 油管:https://www.youtube.com/watch?v=X7r4rL2T2lg&list=PLiuLMb-dLdWL4KBaU3FTM5f_oMcSvXcZw B站:https://www.bilibili.com/video/BV12s4y1r7jf/?spm_id_from=333.999.section.playall&vd_source=e71f65cbc40a72fce570b20ffcb28b22
打开封面
下载高清视频
观看高清视频
视频下载器
大型语言模型与生成式AI——使用指令对LLM进行微调4——多任务指令微调
大型语言模型与生成式AI——使用指令对LLM进行微调5——模型评估
大型语言模型与生成式AI——人类反馈强化学习5——RLHF - 奖励模型
大型语言模型与生成式AI——参数高效微调3——PEFT技术2 - 软提示
大型语言模型与生成式AI——人类反馈强化学习8——奖励攻击
大型语言模型与生成式AI——介绍LLM和生成式AI项目的生命周期 2——介绍
大型语言模型与生成式AI——人类反馈强化学习1——引言
大型语言模型与生成式AI——使用指令对LLM进行微调2——指令微调
大型语言模型与生成式AI——介绍LLM和生成式AI项目的生命周期 1——课程介绍
大型语言模型与生成式AI——人类反馈强化学习3——通过人类反馈进行强化学习(RLHF)
大语言模型微调之道1——介绍
大型语言模型与生成式AI——参数高效微调1——参数高效微调(PEFT)
大语言模型微调之道4——指令微调
大型语言模型与生成式AI——介绍LLM和生成式AI项目的生命周期7——用Transformer生成文本
大型语言模型与生成式AI——人类反馈强化学习9——扩大人类反馈的规模
大型语言模型与生成式AI——介绍LLM和生成式AI项目的生命周期9——生成配置
大型语言模型与生成式AI——人类反馈强化学习4——RLHF - 获取人类的反馈信息
一分钟学 AI 之 —— 什么是生成式 AI
生成式 AI 入门教程 3 - 什么是生成式 AI - 大语言模型作为思考助手
使用Gradio构建生成式AI应用1:课程介绍
强化学习之父Richard Sutton演讲:实现AGI需要明确的目标和一个世界模型
大型语言模型与生成式AI——介绍LLM和生成式AI项目的生命周期3——生成式AI和大语言模型的输出
生成式AI学习5——编码器-解码器架构(上)概述
大型语言模型与生成式AI——介绍LLM和生成式AI项目的生命周期10——生成式AI项目的生命周期
使用Gradio构建生成式AI应用5:图文互生游戏
一分钟学 AI 之 —— 负责任的 AI 开发
大型语言模型与生成式AI——介绍LLM和生成式AI项目的生命周期4——LLM的使用案例和任务
大语言模型微调之道2——为什么要微调
如何让小型语言模型高效工作。Yejin Choi在2024年数据与AI峰会上发表演讲(双语字幕)
一分钟学 AI 之——什么是提示工程
简单粗暴!1小时理解大模型预训练和微调!了解四大LLM微调方法,大模型所需NLP基础知识,基于人类反馈的强化学习、P-Tuning微调、Lora-QLora
马斯克访谈 —— 尼古拉·坦根采访,谈 AI、特斯拉、中国电动汽车、Twitter(X)、SpaceX、中国电动汽车、企业文化与管理、火星殖民
马斯克的最新演讲,揭示 SpaceX 登陆火星宏伟蓝图,开创人类多行星文明新纪元
面向所有人的生成式 AI 入门课程 5 - 生成式 AI 应用 - 写作
桥水基金的视角:当前AI产品实用性有限的深层原因以及下一阶段突破路径
面向所有人的生成式 AI 入门课程 7 - 生成式 AI 应用 - 聊天
WWDC24: 在Apple GPU上训练您的机器学习和AI模型 | Apple
生成式AI学习6——编码器-解码器架构(下)Lab演练
生成式AI学习10——创建图像字幕模型(上)概述
Geoffrey Hinton 对 AI 未来的见解(双语字幕)