V
主页
16大模型全栈-强化学习09-DPO变体:TDPO:更细粒度控制的DPO;RPO:带有离线奖励的DPO
发布人
强化学习DPO变体:(1)TDPO的思想、原理代码、损失函数、以及编码实践 更细粒度控制token级别的DPO (2)RPO的思想、原理代码、损失函数、以及编码实践 带有离线奖励的DPO
打开封面
下载高清视频
观看高清视频
视频下载器
13大模型全栈-强化学习06-DPO流程、代码以及损失函数介绍
17大模型全栈-强化学习10-DPO变体-DPOP+ORPO:微调阶段实现对齐
14大模型全栈-强化学习07-DPO原理公式推导
15大模型全栈-强化学习08-DPO变体:IPO、KTO:无需偏好数据实现对齐
08大模型全栈-强化学习01-RLHF前言传统强化学习
10大模型全栈-强化学习03-RLHF原理以及流程介绍
这或许是流体力学机器学习最好的视频!机器学习如何在流体力学中应用?Steve Brenton大佬精讲湍流模型,深度强化学习、CFD
11大模型全栈-强化学习04-RLHF实战-deepspeed-chat实战
从模型预测控制到强化学习12:DDPG做动态控制-研究生入学培训答疑
09大模型全栈-强化学习02-RLHF前言LLM强化学习
12大模型全栈-强化学习05-RLHF实战-端到端全流程解决方案-轩辕大模型强化学习完整流程介绍(数据+奖励模型+强化学习调参经验)
【深度强化学习】作者华盛顿大学Steve Brunton教授精讲《数据驱动的科学与工程:机器学习、动态系统与控制》流体动力学、SVD、神经网络
强化学习教父Sutton持续反向传播算法登Nature!证明深度学习还不如浅层网络
我愿称之为强化学习天花板课程!台大李宏毅教授亲授强化学习教程,究极通俗易懂!建议收藏!
Qwen2-7B-微调-训练-评估
【论文代码复现122】基于强化学习的路径规划问题||强化学习和群智能优化算法有什么区别
上海交大张伟楠强化学习课程第3讲:马尔可夫决策过程I
吹爆!这绝对是同济大学最出名的AI Agent系列课程了,零基础阶段必备的前沿AI技术,还不会打造专属大模型智能体来打我!人工智能|机器学习|深度学习|强化学习
大模型全栈总览-tokenizer
我愿称李宏毅强化学习为天花板课程!简单易懂!清晰明了的 PPO算法强化学习入门教程!深度强化学习、人工智能、神经网络
大模型全栈总览
从模型预测控制到强化学习12:DDPG做动态控制-研究生入学培训答疑
大模型全栈-提词工程
20大模型全栈-分布式训练03-模型并行-张量并行、朴素流水线并行原理
上海交大张伟楠强化学习课程第12讲:模仿学习I
Isaacsim/IsaacLab中URDF-USD模型转换,碰撞体查看与修复
强化学习框架-Legged Gym 训练代码详解
从模型预测控制到强化学习-11:确定性策略梯度DPG与随机策略梯度SPG,从控制的角度理解(D)DPG, A2C, QAC, REINFORCE
【深度强化学习 CS285 2023】伯克利—中英字幕
[2]强化学习玩王者荣耀_Android模拟器连接
《强化学习》第4.1-4.3章 策略更新规则(上)
2_从零开始学习强化学习_MDP基础概念
DPO:人类偏好对齐技术——大模型训练的最后一公里
秋招入职必刷!三小时快速上手【深度强化学习】,不愧是王树森博士,讲的实在是太通俗易懂了!
强化学习创新下一站: 贝叶斯自适应马尔可夫决策过程,设计能自我激励、不断学习的Agent!
代码实现大模型强化学习(PPO),看这个视频就够了。
上海交大张伟楠强化学习课程第11讲:基于模型的深度强化学习III
斯坦福大学《强化学习|Stanford CS234 Reinforcement Learning Winter 2019》中英字幕(豆包翻译
强化训练Cot成为新的scaling law Cot为什么让大模型变强? 斯坦福论文揭秘
01AI应用-卖货主播大模型01-手把手教你部署