大型语言模型与生成式AI——人类反馈强化学习5——RLHF - 奖励模型

发布人

大型语言模型与生成式AI——人类反馈强化学习5——RLHF - 奖励模型

#大型语言模型与生成式AI#

你好！在这个阶段，我们已经为训练奖励模型做好了准备。虽然开始时需要很多人工参与，但当模型训练好后，就可以自动工作了，不再需要人的帮助。

这个奖励模型其实也是一种语言模型。它可以学习和选择最佳的答案。例如，当给出一个问题X时，模型会选择最合适的答案y_j。完成训练后，这个模型还可以帮助我们区分好的答案和不好的答案。

一个实际的应用是，如果我们想让模型回答更加友好，不包含不良信息，这个模型就可以帮助我们识别和过滤。例如，它可以帮助我们识别是否有仇恨言论，并选择更好的答案。

总之，这个奖励模型是一个非常有用的工具，帮助我们得到更好的结果。接下来，我们会探讨如何使用这个模型进行更深入的训练。请继续关注下一个视频，一起学习吧！



课程地址：https://www.coursera.org/learn/generative-ai-with-llms/lecture/Wf1jL/rlhf-reward-model

播放列表：
油管：https://www.youtube.com/watch?v=X7r4rL2T2lg&amp;list=PLiuLMb-dLdWL4KBaU3FTM5f_oMcSvXcZw
B站：https://www.bilibili.com/video/BV12s4y1r7jf/?spm_id_from=333.999.section.playall&amp;vd_source=e71f65cbc40a72fce570b20ffcb28b22

打开封面下载高清视频观看高清视频视频下载器

大型语言模型与生成式AI——人类反馈强化学习5——RLHF - 奖励模型

一分钟学 AI 之 —— 什么是生成式 AI

The Prompt with Trevor Noah | 第3集：AI 如何帮助放射科医生更早更准确地检测乳腺癌

使用Gradio构建生成式AI应用1：课程介绍

一分钟学 AI 之 —— 负责任的 AI 开发

生成式AI学习5——编码器-解码器架构（上）概述

2 分钟解释什么是生成式 AI（双语字幕）

The Prompt with Trevor Noah | 第5集：AI 如何助力临床医生提升胰腺癌早期检测？

到 2025 年，AI 模型会更像你的同事而不是一个搜索引擎

一起学多 AI 智能体系统（双语字幕）- 5. AI 智能体的 6 个关键要素

音乐合作的极致伙伴 | Music AI Sandbox

AutoCodeRover —— 自动修复 Bug 智能体

Google的教学视频《生成式AI介绍》（中英双语字幕）

AI 是功能还是产品？（双语字幕）

发现提示工程——提示工程就是为了从生成式 AI 中获取有用输出而设计有效提示词的过程（双语字幕）

是什么让大语言模型有了推理的能力？

如何让小型语言模型高效工作。Yejin Choi在2024年数据与AI峰会上发表演讲（双语字幕）

一分钟学 AI 之 —— 什么是向量搜索

合成数据能否解锁 AI 的递归自我进化?— 马克·扎克伯格

一起学多 AI 智能体系统（双语字幕）- 2. 概览

什么是 AI 智能体？（双语字幕）

吴恩达谈AI智能体工作流程及其推动AI进步的潜力（双语字幕）

The Prompt with Trevor Noah | 第6集：有时AI是唯一的解决方案

一起学多 AI 智能体系统（双语字幕）- 6. 实战：搭建一个多智能体客户支持系统

小札视频介绍 Meta AI 和 Llama 3

面向所有人的生成式 AI 入门课程 9 - 生成式 AI 应用 - 高效提示词撰写技巧

前方高能，这27个变态AI，一定要偷偷用起来！

一起学多 AI 智能体系统（双语字幕）- 1. 介绍

面向所有人的生成式 AI 入门课程 7 - 生成式 AI 应用 - 聊天

从商业思维到AI实施：利用Semantic Kernel构建插件之路1 —— 介绍

开源项目 postgres.new 使用自然语言设计数据库，可视化查看表的关系图，聊天界面对数据库的数据增删改查，生成图表

Zapier 的联合创始人 Mike Knoop 演示新的 AI 自动化工作流

借助 AI 技术帮助中风患者通过数字分身“说话”，更自然地更高效地与人交流

Linus Torvalds 谈 AI，积极拥抱，警惕炒作，10 年后再下结论 【双语字幕】

The Prompt with Trevor Noah | 第1集：IHME 人口制图

The Prompt with Trevor Noah | 第7集：使用AI检测政治深度伪造

ElevenLabs AI新功能，可以自定义自己的声音

一起学多 AI 智能体系统（双语字幕）- 7. 智能体系统中让工具表现出色的关键因素

硅谷女孩采访 Perplexity 创始人 Aravind

来自 Anima Anandkumar 的 TED 演讲：AI 让数字世界和物理世界连接到了一起（双语字幕）

大语言模型微调之道4——指令微调

Linus Torvalds 谈 AI，积极拥抱，警惕炒作，10 年后再下结论【双语字幕】