大型语言模型与生成式AI——人类反馈强化学习9——扩大人类反馈的规模

发布人

大型语言模型与生成式AI——人类反馈强化学习9——扩大人类反馈的规模

#大型语言模型与生成式AI

在RLHF微调中，虽然奖励模型可以避免人工评估，但初步建立这种模型需要大量的人力。随着模型数量的增加，人工成为了有限的资源。为了解决这问题，研究人员正在探索如何扩展人类的反馈。

其中一个方法是通过模型自我监督，称为“宪法AI”。这种方法首先在2022年由Anthropic的研究者提出，通过一系列规则和原则来训练模型。这种方法不仅可以放大反馈，还可以帮助解决RLHF的一些意外后果。例如，模型可能会提供有害的回应，即使这是非法的。通过提供一套宪法原则，可以帮助模型平衡这些冲突。实施这种方法时，需要进行两个阶段的训练。首先是监督学习，然后是增强学习。最终的目标是创建一个能够生成宪法回应的NLM。

这是一个非常重要的研究领域，我很期待看到更多的新发现！

课程地址：https://www.coursera.org/learn/generative-ai-with-llms/lecture/eJVnL/scaling-human-feedback

播放列表：
油管：https://www.youtube.com/watch?v=X7r4rL2T2lg&amp;list=PLiuLMb-dLdWL4KBaU3FTM5f_oMcSvXcZw
B站：https://www.bilibili.com/video/BV12s4y1r7jf/?spm_id_from=333.999.section.playall&amp;vd_source=e71f65cbc40a72fce570b20ffcb28b22

打开封面下载高清视频观看高清视频视频下载器

大型语言模型与生成式AI——人类反馈强化学习9——扩大人类反馈的规模

PS 2025鹰标 Ai创成式填充 国内使用方法（新功能介绍+安装教程）PS2024 PSBeta都可以安装。

(超爽中英!) 2024公认最好的【生成式AI】系列教程！3小时带你从入门到精通！

一分钟学 AI 之 —— 什么是生成式 AI

【Grok-Beta 】马斯克为庆祝特朗普当选 宣布【几乎免费的大语言模型API】每月赠送25美金算力金 适用于最新发布的大语言模型Grok-Beta 快来注册

【2024最新完整版】不愧是李宏毅教授！一口气学完机器学习、深度学习、强化学习、生成式AI等课程！一套全解决！

The Prompt with Trevor Noah | 第1集：IHME 人口制图

生成式AI学习5——编码器-解码器架构（上）概述

2 分钟解释什么是生成式 AI（双语字幕）

具身智能新思路———Diffusion Policy 结合 PPO 模仿+强化 （上）

真绝了！吴恩达详解RAG落地应用核心技术分享，检索优化：从分词到矢量量化 | 附课件+代码文档

吴恩达 AI大模型系列：使用 crewAI 的实用多 AI 代理和高级用例丨Advanced Use Cases with crewAI(附课件+代码文档)

【李宏毅】2024秋《生成式人工智能导论》教程！LLM大模型入门到进阶，比刷剧爽多了！--附带课件代码

【全网最牛】2024年最新Langchain0.2版教程，从入门到精通，通俗易懂，看完就会，必看教程！！！！

Diffusion Policy 结合 PPO 模仿+强化 （下）

发现提示工程——提示工程就是为了从生成式 AI 中获取有用输出而设计有效提示词的过程（双语字幕）

如何免费利用 ChatGPT 语音功能学习外语

MIT《TinyML和高效深度学习计算L15 - 长文本LLM|EfficientML.ai 2024 Fall MIT 6.5940》deepseek

ElevenLabs AI新功能，可以自定义自己的声音

【Llama3微调全攻略】B站最全教程！手把手教你微调-量化-部署-应用一条龙！

Healthify，一款营养和健身教练应用程序，使用实时 API 来实现其 AI 教练 Ria 的自然对话，同时在需要时让人类营养师参与提供个性化支持

Diffusion Policy 结合 PPO 模仿+强化 （中）

AI圈疯传！外网爆火的这本还未发售的书，10月29日正式发布，从零开始构建LLM大语言模型（附PDF文档）

【全网最细】质量堪比清华大学的AI大模型公开课！技术大佬带你零基础搞懂大模型，2024最新版本，存下吧，从理论到实践轻松拿捏，看完还不会来找我！

Mistral 入门指南 —— 如何从头实现一个简单的检索增强生成（RAG）

从商业思维到AI实施：利用Semantic Kernel构建插件之路1 —— 介绍

一起学多 AI 智能体系统（双语字幕）- 7. 智能体系统中让工具表现出色的关键因素

如何让小型语言模型高效工作。Yejin Choi在2024年数据与AI峰会上发表演讲（双语字幕）

大语言模型微调之道5——准备数据

直观理解大模型预训练和微调！四大LLM微调方法，RLHF基于人类反馈的强化学习微调

前两天面了个大模型工程师，开始感觉很不错，可是工作几天。。。

一起学多 AI 智能体系统（双语字幕）- 1. 介绍

通俗理解大模型从预训练到微调实战！P-Tuning微调、Lora-QLora、RLHF基于人类反馈的强化学习

面向所有人的生成式 AI 入门课程 10 - 生成式 AI 应用 - 图像生成

[CoRL]使用模仿引导强化学习实现基于视觉的敏捷飞行 | 2024 苏黎世大学

一分钟学 AI 之 —— 什么是向量搜索

【附代码】超爽中英！2024全网公认最全的（吴恩达大模型LLM微调）系列，看完轻松搭建自己的LLM！

大语言模型微调之道3——微调在训练过程中的位置

使用Gradio构建生成式AI应用1：课程介绍

一起学多 AI 智能体系统（双语字幕）- 6. 实战：搭建一个多智能体客户支持系统

将 AI 工具带到爱尔兰最偏远的地区

PS 2025鹰标 Ai创成式填充国内使用方法（新功能介绍+安装教程）PS2024 PSBeta都可以安装。

【Grok-Beta 】马斯克为庆祝特朗普当选宣布【几乎免费的大语言模型API】每月赠送25美金算力金适用于最新发布的大语言模型Grok-Beta 快来注册

具身智能新思路———Diffusion Policy 结合 PPO 模仿+强化（上）

Diffusion Policy 结合 PPO 模仿+强化（下）

Diffusion Policy 结合 PPO 模仿+强化（中）