V
主页
【DPO衍生算法串讲-Part 1】r2Q*,Step-DPO,RTO,TDPO,SimPO,ORPO
发布人
又要Pre啦ww 这次要和大家分享的是RLHF中的DPO衍生算法串讲,包括r2Q*,Step-DPO,RTO,TDPO,SimPO和ORPO 今天先准备了Part 1,下期视频出Part 2哦! 双十一快乐! References: • DPO: https://arxiv.org/abs/2305.18290 • r2Q*: https://arxiv.org/abs/2404.12358 • Step-DPO: https://arxiv.org/abs/2406.18629 • RTO: https://arxiv.org/abs/2404.18922 • TDPO: https://arxiv.org/abs/2404.11999 • SimPO: http://arxiv.org/abs/2405.14734 • ORPO: http://arxiv.org/abs/2403.07691 • DPO推导: https://zhuanlan.zhihu.com/p/3001824384?utm_campaign=shareopn&utm_medium=social&utm_psn=1837169578666512384&utm_source=wechat_session • DPO局限性: https://zhuanlan.zhihu.com/p/1082394115 • DPO衍生算法: https://zhuanlan.zhihu.com/p/710021282 • 论文分享 DPO: From A Token-Level Reward Perspective(r2Q*、RTO、TDPO)_哔哩哔哩_bilibili
打开封面
下载高清视频
观看高清视频
视频下载器
2024吃透AI大模型(LLM+RAG系统+GPT-4o+OpenAI)通俗易懂,学完即就业!拿走不谢,学不会我退出IT圈!!!
B站强推!【Matlab与机器学习的入门进阶与提高】花3小时就能从入门到精通,草履虫都能学会的机器学习算法!人工智能|决策树与随机森林|机器学习
第十五届正大杯全国大学生市场调查与分析大赛新手小白教程经验(网考-组队技能分工-选题-流程--国奖报告撰写-PPT答辩技巧)
【B站最详细】使用Ollama+fastGpt搭建一个全能知识库!专属自己!支持多种文件类型,实现本地化大型模型部署,效果非凡!
【微调实战】30分钟学会微调大模型,通义千问1.8B大模型微调从0到1,实现天气预报功能,进行结构化信息提取
【整整11集】全B站最用心的知识图谱零基础教程-《基于知识图谱的智能问答项目实战》,2024最新版,带你3小时学会构建智能问答系统,附开源项目!
【Triton编程】Dropout,Matrix Multiplication,Layer Normalization
【整整600集】全B站最用心的配音零基础教程,2024最新版,带你7天入门配音,包含所有干货!0基础小白看这套就够了,存下吧,很难找全的!
【全700集】清华大佬终于把C语言教程做成了动画片,C语言零基础入门到精通全套教程,全程干货无废话草履虫都能学会!学完即就业!这还学不会,我退出b站!
【全374集】2024最新清华内部版!终于把AI大模型(LLM)讲清楚了!全程干货讲解,通俗易懂,拿走不谢!
训狗_3
冒死上传!目前B站最完整的大模型微调教程,适应于所有大模型微调实战!微调|量化|部署|应用
Stanford CS234 Reinforcement Learning,RLHF&DPO
全程干货!低成本手把手教你Fine-Tuning基于Qwen2.5-7B大模型从零微调行业大模型,过程可视化呈现
第18课- 【升级篇】虚幻5.5_蓝图新知识或隐藏功能全解
使用ROS2-Control + RL来控制四足机器人
Stanford CS234 2024 Spring | 强化学习 | Reinforcement Learning
30分钟教会你使用Llama Factory微调一个专属自己的中文llama3
【PS教程】别再到处找了!100集(全)从零开始学Photoshop软件基础(2024新手入门实用版)PS2024零基础入门教程!!!
【小白福音】Ollama + AnythingLLM,有手就行本地知识库部署,从安装到部署,手把手教你玩转知识库!
B站首推!AI大模型课程2024年最新版!从零基础到入行大模型算法工程师,看完这一篇就够了,学完来找我内推!
【PS教程】200集(全)从零开始学Photoshop软件基础(2025新手入门实用版)PS2025零基础入门教程!!!
[搬] 稳健的类人机器人行走-通过强化学习增强基于模型的控制
【PS教程】100集(全)从零开始学Photoshop软件基础(2024新手入门实用版)PS2024零基础入门教程!!!
【Agent+RAG】10小时博士精讲AI Agent(人工智能体)系列—提示工程、文本大模型、GPT...
吹爆!研究生必看的【Matlab与机器学习的入门进阶与提高】花3小时就能从入门到精通,能听懂人话就行,草履虫都能学会的机器学习算法神经网络教程
鲨疯了!最适合新手入门的【LLM医疗大模型】教程:医疗大模型LLM应用现状及如何微调一个医疗大模型?我竟然一天就搞懂了!
陈冠希谈人生,这段发言真的很通透!美式发音简直绝了
超简单手机下载网页小说教程
【全600集】2024最新版B站最细致的C语言零基础全套保姆级教程,全程干货无废话!一个月就能从C语言小白入门到精通,存下吧,少走99%的弯路!
【Dify开源项目实战 】目前B站最详细的Dify快速入门教程,手把手教你基于Llama 3.1和OpenAI创建聊天机器人与知识库
知识,需要用在需要它的地方
RLHF训练法从零复现,TRL版本复现,代码实战,大语言模型训练
【Coze教程】这可能是全网最系统的Coze入门教程了!手把手教你用Coze手搓Agent智能体到搭建Coze工作流,入门到精通!
【2025版AI大模型教程】这可能是B站唯一能将AI大模型全讲明白的教程!存下吧,比啃书效果好太多了,7天从入门到实战,允许白嫖,拿走不谢!
【色彩大师】2024全网最全的设计色彩搭配原理+案例讲解,设计师调色保姆级教程,学完解决99%配色难题!
【排版60集】零基础教你快速掌握版式基本功 ,纯文字也能制作出好看的海报,轻松学会版式设计!版式构图/banner设计/改版设计/排版技巧
10分钟快速部署上手RAGFlow!支持多种文件类型,大模型小白必看本地部署大模型教程(附教程)
【本地微调大模型】不吃配置,本地笔记本上轻松微调Llama3,Windows中文微调教程(附弱智吧训练训练集)
【Maya角色建模】从拉box开始教你,超详细的Q版卡通动物角色“唐老鸭”建模教程