V
主页
08大模型全栈-强化学习01-RLHF前言传统强化学习
发布人
强化学习的概念介绍
打开封面
下载高清视频
观看高清视频
视频下载器
13大模型全栈-强化学习06-DPO流程、代码以及损失函数介绍
10大模型全栈-强化学习03-RLHF原理以及流程介绍
09大模型全栈-强化学习02-RLHF前言LLM强化学习
15大模型全栈-强化学习08-DPO变体:IPO、KTO:无需偏好数据实现对齐
14大模型全栈-强化学习07-DPO原理公式推导
RL vs MPC,LeCun:MPC,胜!我不看好强化学习
12大模型全栈-强化学习05-RLHF实战-端到端全流程解决方案-轩辕大模型强化学习完整流程介绍(数据+奖励模型+强化学习调参经验)
11大模型全栈-强化学习04-RLHF实战-deepspeed-chat实战
16大模型全栈-强化学习09-DPO变体:TDPO:更细粒度控制的DPO;RPO:带有离线奖励的DPO
17大模型全栈-强化学习10-DPO变体-DPOP+ORPO:微调阶段实现对齐
18大模型全栈-分布式训练01-数据并行-Ring–Allreduce和PS原理
上海交大张伟楠强化学习课程第16讲:基于扩散模型的强化学习
大模型全栈–微调01-微调前置-内含openAI垂直大模型生成方案介绍
Unity使用自己的强化学习算法(DQN)训练智能体——学习日记
深度强化学习Carla实战-SAC算法(二)--SAC-Carla训练过程
【深度强化学习】作者华盛顿大学Steve Brunton教授精讲《数据驱动的科学与工程:机器学习、动态系统与控制》流体动力学、SVD、神经网络
大模型全栈-提词工程
【基于 RLHF 的强化学习详解 by Umar Jamil】
强化学习付费教程!强化学习实战系列,最全最完整的强化学习教程从零基础开始教学,学完可实战!
上海交大张伟楠强化学习课程第1讲:强化学习简介I
大模型全栈总览
独家视频解读:【北大对齐团队独家解读:OpenAI o1开启「后训练」时代强化学习新范式】
三指灵巧手,强化学习手内灵巧操作连续成功
基于强化学习的机械臂固定时间轨迹跟踪控制仿真【复现】
为什么Isaac gym 读取的速度不等于位置的微分呀,用pd算的力矩不就是错的吗
强化训练Cot成为新的scaling law Cot为什么让大模型变强? 斯坦福论文揭秘
吹爆!这绝对是同济大学最出名的AI Agent系列课程了,零基础阶段必备的前沿AI技术,还不会打造专属大模型智能体来打我!人工智能|机器学习|深度学习|强化学习
上海交大张伟楠强化学习课程第6讲:无模型控制方法I
[下]6个人形双足强化学习开源项目,论文讲解,代码速读,FLD,PBRS,footstep,ExBody,humanplus,humanoid-gym
强化学习教父Sutton持续反向传播算法登Nature!证明深度学习还不如浅层网络
SOTA ! 浙大最新成果!四足强化学习走梅花桩!
2_从零开始学习强化学习_MDP基础概念
深度强化学习Carla实战-SAC算法(一)
没病走两步?!深度强化学习训练AI走路!
上海交大张伟楠强化学习课程第5讲:值函数估计I
论文创新秒懂!GNN图神经网络:原理++论文解读+代码复现,入门必看基础干货,全套教程快码住!深度学习/神经网络/人工智能
大模型全栈总览-tokenizer
大模型全栈-数据介绍
大模型全栈总览-训练总览
[上]6个人形双足强化学习开源项目,论文讲解,代码速读,FLD,PBRS,footstep,ExBody,humanplus,humanoid-gym