大型语言模型与生成式AI——人类反馈强化学习4——RLHF - 获取人类的反馈信息

发布人

大型语言模型与生成式AI——人类反馈强化学习4——RLHF - 获取人类的反馈信息

#大型语言模型与生成式AI#

深入探索生成式AI的世界，了解如何使用基于人类反馈的强化学习（RLHF）来微调大型语言模型（LLMs）。在本视频中，我们将介绍：

1. RLHF简介：了解人类反馈在培训AI模型中的重要性。学习如何为特定任务选择合适的LLM，无论是文本摘要、问题回答还是其他内容。
2. 创建提示数据集：发现如何使用LLM和一组提示生成多样化的响应。
3. 收集人类反馈：掌握从人类标注者那里获得有价值反馈的过程，重点关注有助性和毒性等标准。
4. 示例分析：通过一个真实世界的例子，了解人类标注者如何根据其有助性对LLM生成的完成情况进行排名。
5. 给标注者的指示：了解清晰和详细指示的重要性，以确保获得高质量的反馈。
6. 训练奖励模型：深入了解如何将人类排名转化为适合训练奖励模型的数据。

观看本视频后，您将全面了解如何利用人类反馈来微调LLMs，确保它们产生更准确和有帮助的生成结果。



课程地址：https://www.coursera.org/learn/generative-ai-with-llms/lecture/lQBGW/rlhf-obtaining-feedback-from-humans

播放列表：
油管：https://www.youtube.com/watch?v=X7r4rL2T2lg&amp;list=PLiuLMb-dLdWL4KBaU3FTM5f_oMcSvXcZw
B站：https://www.bilibili.com/video/BV12s4y1r7jf/?spm_id_from=333.999.section.playall&amp;vd_source=e71f65cbc40a72fce570b20ffcb28b22

打开封面下载高清视频观看高清视频视频下载器

大型语言模型与生成式AI——人类反馈强化学习4——RLHF - 获取人类的反馈信息

大型语言模型与生成式AI——参数高效微调1——参数高效微调（PEFT）

使用Gradio构建生成式AI应用2：NLP 任务接口

大型语言模型与生成式AI——介绍LLM和生成式AI项目的生命周期4——LLM的使用案例和任务

一起学多 AI 智能体系统（双语字幕）- 3. 什么是 AI 智能体

大型语言模型与生成式AI——使用指令对LLM进行微调1——介绍

使用Gradio构建生成式AI应用6：构建与大语言模型交互的聊天应用

面向所有人的生成式 AI 入门课程 4 - 什么是生成式 AI - AI 是一种通用技术

生成式AI学习9——Transformer模型和BERT模型（下）演示

大型语言模型与生成式AI——参数高效微调2——PEFT技术1 - LoRA（低秩适应）

Mistral 入门指南 —— 如何写提示词

从商业思维到AI实施：利用Semantic Kernel构建插件之路2 —— Semantic Kernel就像你的AI“烹饪厨房”

一起学多 AI 智能体系统（双语字幕）- 2. 概览

最近 CNBC 对 Airbnb CEO Brian Chesky 采访的一段视频，谈到了去年 OpenAI 宫斗以及 Airbnb 在 AI 的应用

发现提示工程——提示工程就是为了从生成式 AI 中获取有用输出而设计有效提示词的过程（双语字幕）

使用Gradio构建生成式AI应用4：图像生成应用

从商业思维到AI实施：利用Semantic Kernel构建插件之路6 —— 如何最大化利用知识和资源。

大型语言模型与生成式AI——介绍LLM和生成式AI项目的生命周期3——生成式AI和大语言模型的输出

扎克伯格更担心某些我们不信任的人掌握了超级 AI，有了优秀的开源 AI 反而可以帮助引领标准，确保一个更公平、更均衡的竞争环境，达到平衡

生成式AI学习12——生成式人工智能工作室介绍

Mistral 入门指南 —— 如何选择合适的模型

The Prompt with Trevor Noah | 第3集：AI 如何帮助放射科医生更早更准确地检测乳腺癌

Google的教学视频《生成式AI介绍》（中英双语字幕）

Google Project Astra 演示：陪你一起看 Google I/O 直播并为你解说

开源项目 postgres.new 使用自然语言设计数据库，可视化查看表的关系图，聊天界面对数据库的数据增删改查，生成图表

从商业思维到AI实施：利用Semantic Kernel构建插件之路8 —— 专业智能厨房，设备齐全，等你展烹饪才华！

教程：如何制作一个视频转化为GIF的工具类GPT？

大型语言模型与生成式AI——参数高效微调3——PEFT技术2 - 软提示

来自 Anima Anandkumar 的 TED 演讲：AI 让数字世界和物理世界连接到了一起（双语字幕）

合成数据能否解锁 AI 的递归自我进化?— 马克·扎克伯格

一分钟学 AI 之 —— 什么是向量搜索

马克·扎克伯格的形象大转变

大型语言模型与生成式AI——人类反馈强化学习1——引言

基于LangChain的大语言模型应用开发6——评估

如何写好提示词4

面向所有人的生成式 AI 入门课程 7 - 生成式 AI 应用 - 聊天

生成式AI学习10——创建图像字幕模型（上）概述

是什么让大语言模型有了推理的能力？

Google的教学视频《Introduction to Large Language Models | 大语言模型介绍》

来，学习一下Amazon AI shopping assistant 的 Prompt

一分钟学 AI 之 —— 什么是大语言模型