08大模型全栈-强化学习01-RLHF前言传统强化学习 - 视频下载 Video Downloader

08大模型全栈-强化学习01-RLHF前言传统强化学习

发布人

强化学习的概念介绍

打开封面下载高清视频观看高清视频视频下载器

13大模型全栈-强化学习06-DPO流程、代码以及损失函数介绍

10大模型全栈-强化学习03-RLHF原理以及流程介绍

09大模型全栈-强化学习02-RLHF前言LLM强化学习

15大模型全栈-强化学习08-DPO变体：IPO、KTO：无需偏好数据实现对齐

14大模型全栈-强化学习07-DPO原理公式推导

RL vs MPC，LeCun：MPC，胜！我不看好强化学习

12大模型全栈-强化学习05-RLHF实战-端到端全流程解决方案-轩辕大模型强化学习完整流程介绍（数据+奖励模型+强化学习调参经验）

11大模型全栈-强化学习04-RLHF实战-deepspeed-chat实战

16大模型全栈-强化学习09-DPO变体：TDPO：更细粒度控制的DPO；RPO：带有离线奖励的DPO

17大模型全栈-强化学习10-DPO变体-DPOP+ORPO：微调阶段实现对齐

18大模型全栈-分布式训练01-数据并行-Ring–Allreduce和PS原理

上海交大张伟楠强化学习课程第16讲：基于扩散模型的强化学习

大模型全栈–微调01-微调前置-内含openAI垂直大模型生成方案介绍

Unity使用自己的强化学习算法(DQN)训练智能体——学习日记

深度强化学习Carla实战-SAC算法(二)--SAC-Carla训练过程

【深度强化学习】作者华盛顿大学Steve Brunton教授精讲《数据驱动的科学与工程：机器学习、动态系统与控制》流体动力学、SVD、神经网络

大模型全栈-提词工程

【基于 RLHF 的强化学习详解 by Umar Jamil】

强化学习付费教程！强化学习实战系列，最全最完整的强化学习教程从零基础开始教学，学完可实战！

上海交大张伟楠强化学习课程第1讲：强化学习简介I

大模型全栈总览

独家视频解读：【北大对齐团队独家解读：OpenAI o1开启「后训练」时代强化学习新范式】

三指灵巧手，强化学习手内灵巧操作连续成功

基于强化学习的机械臂固定时间轨迹跟踪控制仿真【复现】

为什么Isaac gym 读取的速度不等于位置的微分呀，用pd算的力矩不就是错的吗

强化训练Cot成为新的scaling law Cot为什么让大模型变强？斯坦福论文揭秘

吹爆！这绝对是同济大学最出名的AI Agent系列课程了，零基础阶段必备的前沿AI技术，还不会打造专属大模型智能体来打我！人工智能|机器学习|深度学习|强化学习

上海交大张伟楠强化学习课程第6讲：无模型控制方法I

[下]6个人形双足强化学习开源项目，论文讲解，代码速读，FLD，PBRS，footstep，ExBody，humanplus，humanoid-gym

强化学习教父Sutton持续反向传播算法登Nature！证明深度学习还不如浅层网络

SOTA ! 浙大最新成果！四足强化学习走梅花桩!

2_从零开始学习强化学习_MDP基础概念

深度强化学习Carla实战-SAC算法(一)

没病走两步？！深度强化学习训练AI走路！

上海交大张伟楠强化学习课程第5讲：值函数估计I

论文创新秒懂！GNN图神经网络：原理++论文解读+代码复现，入门必看基础干货，全套教程快码住！深度学习/神经网络/人工智能

大模型全栈总览-tokenizer

大模型全栈-数据介绍

大模型全栈总览-训练总览

[上]6个人形双足强化学习开源项目，论文讲解，代码速读，FLD，PBRS，footstep，ExBody，humanplus，humanoid-gym