V
主页
15大模型全栈-强化学习08-DPO变体:IPO、KTO:无需偏好数据实现对齐
发布人
强化学习DPO变体:(1)IPO的思路以及损失函数,代码 (2)KTO的思路以及损失函数,代码,无需偏好数据实现对齐
打开封面
下载高清视频
观看高清视频
视频下载器
17大模型全栈-强化学习10-DPO变体-DPOP+ORPO:微调阶段实现对齐
16大模型全栈-强化学习09-DPO变体:TDPO:更细粒度控制的DPO;RPO:带有离线奖励的DPO
13大模型全栈-强化学习06-DPO流程、代码以及损失函数介绍
14大模型全栈-强化学习07-DPO原理公式推导
08大模型全栈-强化学习01-RLHF前言传统强化学习
太完整了!我居然3天时间就掌握了【机器学习+深度学习+强化学习+PyTorch】理论到实战,多亏了这个课程,绝对通俗易懂纯干货分享!
斯坦福大学《强化学习|Stanford CS234 Reinforcement Learning 2024》deepseek翻译
11大模型全栈-强化学习04-RLHF实战-deepspeed-chat实战
强推!2024年最适合初学者入门学习的《机器学习+深度学习+强化学习》上海交大和腾讯强强联合打造!太全面了!
大模型全栈总览-tokenizer
RLHF基于人类反馈的强化学习动画讲解(LLM)
[搬] 稳健的类人机器人行走-通过强化学习增强基于模型的控制
10大模型全栈-强化学习03-RLHF原理以及流程介绍
大模型全栈总览
12大模型全栈-强化学习05-RLHF实战-端到端全流程解决方案-轩辕大模型强化学习完整流程介绍(数据+奖励模型+强化学习调参经验)
这应该是你能找到的讲解最系统全面的【强化学习】教程!北大出身王树森教授从零到一保姆式教学,小白也能很好懂!
DPO直接偏好优化算法 (动画讲解)
Qwen2-7B-微调-训练-评估
【Python】人形机器人——强化学习
20大模型全栈-分布式训练03-模型并行-张量并行、朴素流水线并行原理
19大模型全栈-分布式训练02-数据并行-deepspeed zero1/2/3原理
Lec9: 强化学习的概率论基础Review(世界是确定的,条件概率,条件期望,towering property)
不愧是李宏毅老师讲的【强化学习】简直太详细了!全程干货,通俗易懂,看完就跑通!(人工智能|机器学习|深度学习|强化学习)
09大模型全栈-强化学习02-RLHF前言LLM强化学习
RLHF训练法从零复现,TRL版本复现,代码实战,大语言模型训练
垂直领域大模型解决方案:煤矿安全大模型基于免费的glm-4-flash
通俗理解大模型从预训练到微调实战!P-Tuning微调、Lora-QLora、RLHF基于人类反馈的强化学习
TITA强化学习迁移
大模型全栈-数据介绍
强推!这绝对是B站最全的(python+机器学习+深度学习)系列教程,草履虫都能学会,学不会你来锤爆我!人工智能/机器学习/深度学习/python/神经网络
CV强化论文分享20241018-1
RLChina 2024 | 3小时强化学习入门课程-上
CV强化论文分享20241018-2
接chatglm4微调以及部署介绍实操测试多模态以及文档分析部分
CV强化论文分享20241025-01
Gemma2-9B-微调-训练-评估
我居然半天就学会了强化学习!华理计算机博士45集精讲,带你一次吃透PPO、Q-learning、DQN、A3C算法原理与实战
【2024汽车年会】大数据和人工智能:从系统辨识到AI建模 从最优控制到强化学习
CV强化论文分享-20241025-02
人工智能这样学!同济大佬三小时带你轻松掌握【强化学习】入门及实战,全程大白话讲解,主打一个通俗易懂!