V
主页
17大模型全栈-强化学习10-DPO变体-DPOP+ORPO:微调阶段实现对齐
发布人
总体强化学习off policy 总结以及畅想:并包含DPOP、ORPO介绍 强化学习DPO变体:DPOP的思想、原理代码、损失函数、以及编码实践 更细粒度控制token级别的DPO ORPO:微调阶段实现对齐
打开封面
下载高清视频
观看高清视频
视频下载器
16大模型全栈-强化学习09-DPO变体:TDPO:更细粒度控制的DPO;RPO:带有离线奖励的DPO
10大模型全栈-强化学习03-RLHF原理以及流程介绍
14大模型全栈-强化学习07-DPO原理公式推导
15大模型全栈-强化学习08-DPO变体:IPO、KTO:无需偏好数据实现对齐
大模型全栈总览
Qwen2-7B-微调-训练-评估
08大模型全栈-强化学习01-RLHF前言传统强化学习
UC Berkeley《深度强化学习|CS 285 Deep Reinforcement Learning 2023》中英字幕(豆包翻译)
Gemma2-2B-微调-部署
09大模型全栈-强化学习02-RLHF前言LLM强化学习
11大模型全栈-强化学习04-RLHF实战-deepspeed-chat实战
Gemma2-9B-微调-训练-评估
13大模型全栈-强化学习06-DPO流程、代码以及损失函数介绍
强化学习导航:仿真环境训练及ROS实车部署
劝退强化学习?这是我见过最好的强化学习导论多伦多大学精品课程!简直就是小白救星!—深度强化学习/人工智能/神经网络/多智能体强化学习
双足机器人强化学习humanoid-gym sim2sim详细学习过程,Openloong的urdf为例
Llama3.1-8B-微调-部署
[新手可入门]基于pybullet强化学习机械臂抓取仿真
Nature 智能机器'24-7-封面,使用强化学习和生成预训练AI模型,举一反三,实现四足机器人逼真的敏捷性和游戏性!
牛逼!竟然用3天一口气学完强化学习【PPO、Q-learning、DQN、A3C】十大算法原理及实战玩转超级马里奥!通俗易懂,比啃书强太多了!机器学习|深度学习
人形机器人强化学习训练方法,为什么腿是直着的?humanoid gym
自动驾驶端到端的难点:数据浓度和强化学习
人工智能新突破!登上Nature神坛!首次被证明具有系统泛化能力,能像人类一样举一反三!
人形机器人,强化学习sim 2 sim,humanoid gym 训练方法
OpenLoong强化学习测试行走
机器人进化先从RoboCup足球杯开始
大模型全栈–微调01-微调前置-内含openAI垂直大模型生成方案介绍
强化学习控制,PPO算法,神经网络控制,SImulink可编程,PX4小无人机飞控,硬件在环仿真到实物飞行
重生之变成骷髅,强化学习教我行走
强化学习必看!2024麻省理工强化学习最新教程!
大模型全栈–微调02-PEFT高效参数微调技术速览lora等技术、lora应用场景、lora调优经验
chatglm4微调以及部署介绍
大模型全栈-数据介绍
傅利叶GR-1 sim2sim到Mujoco环境中
大模型全栈总览-tokenizer
大模型全栈–transformer原理-embedding原理-增量预训练技巧
接chatglm4微调以及部署介绍实操测试多模态以及文档分析部分
探索前沿:强化学习与Transformer的29个创新突破
19大模型全栈-分布式训练02-数据并行-deepspeed zero1/2/3原理
18大模型全栈-分布式训练01-数据并行-Ring–Allreduce和PS原理