V
主页
大型语言模型与生成式AI——人类反馈强化学习5——RLHF - 奖励模型
发布人
大型语言模型与生成式AI——人类反馈强化学习5——RLHF - 奖励模型 #大型语言模型与生成式AI# 你好!在这个阶段,我们已经为训练奖励模型做好了准备。虽然开始时需要很多人工参与,但当模型训练好后,就可以自动工作了,不再需要人的帮助。 这个奖励模型其实也是一种语言模型。它可以学习和选择最佳的答案。例如,当给出一个问题X时,模型会选择最合适的答案y_j。完成训练后,这个模型还可以帮助我们区分好的答案和不好的答案。 一个实际的应用是,如果我们想让模型回答更加友好,不包含不良信息,这个模型就可以帮助我们识别和过滤。例如,它可以帮助我们识别是否有仇恨言论,并选择更好的答案。 总之,这个奖励模型是一个非常有用的工具,帮助我们得到更好的结果。接下来,我们会探讨如何使用这个模型进行更深入的训练。请继续关注下一个视频,一起学习吧! 课程地址:https://www.coursera.org/learn/generative-ai-with-llms/lecture/Wf1jL/rlhf-reward-model 播放列表: 油管:https://www.youtube.com/watch?v=X7r4rL2T2lg&list=PLiuLMb-dLdWL4KBaU3FTM5f_oMcSvXcZw B站:https://www.bilibili.com/video/BV12s4y1r7jf/?spm_id_from=333.999.section.playall&vd_source=e71f65cbc40a72fce570b20ffcb28b22
打开封面
下载高清视频
观看高清视频
视频下载器
一分钟学 AI 之 —— 什么是生成式 AI
The Prompt with Trevor Noah | 第3集:AI 如何帮助放射科医生更早更准确地检测乳腺癌
使用Gradio构建生成式AI应用1:课程介绍
一分钟学 AI 之 —— 负责任的 AI 开发
生成式AI学习5——编码器-解码器架构(上)概述
2 分钟解释什么是生成式 AI(双语字幕)
The Prompt with Trevor Noah | 第5集:AI 如何助力临床医生提升胰腺癌早期检测?
到 2025 年,AI 模型会更像你的同事而不是一个搜索引擎
一起学多 AI 智能体系统(双语字幕)- 5. AI 智能体的 6 个关键要素
音乐合作的极致伙伴 | Music AI Sandbox
AutoCodeRover —— 自动修复 Bug 智能体
Google的教学视频《生成式AI介绍》(中英双语字幕)
AI 是功能还是产品?(双语字幕)
发现提示工程——提示工程就是为了从生成式 AI 中获取有用输出而设计有效提示词的过程(双语字幕)
是什么让大语言模型有了推理的能力?
如何让小型语言模型高效工作。Yejin Choi在2024年数据与AI峰会上发表演讲(双语字幕)
一分钟学 AI 之 —— 什么是向量搜索
合成数据能否解锁 AI 的递归自我进化?— 马克·扎克伯格
一起学多 AI 智能体系统(双语字幕)- 2. 概览
什么是 AI 智能体?(双语字幕)
吴恩达谈AI智能体工作流程及其推动AI进步的潜力(双语字幕)
The Prompt with Trevor Noah | 第6集:有时AI是唯一的解决方案
一起学多 AI 智能体系统(双语字幕)- 6. 实战:搭建一个多智能体客户支持系统
小札视频介绍 Meta AI 和 Llama 3
面向所有人的生成式 AI 入门课程 9 - 生成式 AI 应用 - 高效提示词撰写技巧
前方高能,这27个变态AI,一定要偷偷用起来!
一起学多 AI 智能体系统(双语字幕)- 1. 介绍
面向所有人的生成式 AI 入门课程 7 - 生成式 AI 应用 - 聊天
从商业思维到AI实施:利用Semantic Kernel构建插件之路1 —— 介绍
开源项目 postgres.new 使用自然语言设计数据库,可视化查看表的关系图,聊天界面对数据库的数据增删改查,生成图表
Zapier 的联合创始人 Mike Knoop 演示新的 AI 自动化工作流
借助 AI 技术帮助中风患者通过数字分身“说话”,更自然地更高效地与人交流
Linus Torvalds 谈 AI,积极拥抱,警惕炒作,10 年后再下结论 【双语字幕】
The Prompt with Trevor Noah | 第1集:IHME 人口制图
The Prompt with Trevor Noah | 第7集:使用AI检测政治深度伪造
ElevenLabs AI新功能,可以自定义自己的声音
一起学多 AI 智能体系统(双语字幕)- 7. 智能体系统中让工具表现出色的关键因素
硅谷女孩采访 Perplexity 创始人 Aravind
来自 Anima Anandkumar 的 TED 演讲:AI 让数字世界和物理世界连接到了一起(双语字幕)
大语言模型微调之道4——指令微调