V
主页
人类反馈强化学习RLHF又一个 开源项目实现Huggingface TRL
发布人
人类反馈强化学习RLHF又一个 开源项目实现Huggingface TRL
打开封面
下载高清视频
观看高清视频
视频下载器
Colossal-AI开源复制ChatGPT训练 RLHF人类反馈强化训练过程
深度强化学习 PPO 纯白板逐行代码Python实现
人类反馈强化学习最新替代方法SimPO #小工蚁
这或许是流体力学机器学习最好的视频!机器学习如何在流体力学中应用?Steve Brenton大佬精讲湍流模型,深度强化学习、CFD
2024论文必备:Transformer实战系列——基于Transformer实现的各大项目实战课程,从原理到代码实现,绝对通俗易懂!
RL vs MPC,LeCun:MPC,胜!我不看好强化学习
发论文idea来了!强化学习融合Transformer,全是创新点!
Unity使用自己的强化学习算法(DQN)训练智能体——学习日记
强化学习教父Sutton持续反向传播算法登Nature!证明深度学习还不如浅层网络
从模型预测控制到强化学习-11:确定性策略梯度DPG与随机策略梯度SPG,从控制的角度理解(D)DPG, A2C, QAC, REINFORCE
[下]6个人形双足强化学习开源项目,论文讲解,代码速读,FLD,PBRS,footstep,ExBody,humanplus,humanoid-gym
DPO:人类偏好对齐技术——大模型训练的最后一公里
不同神经网络本质上有区别吗?迪哥一次性带你吃透CNN、RNN、GAN、GNN、Transformer五大深度学习神经网络!原理解读+项目实战,小白秒上手!
[上]6个人形双足强化学习开源项目,论文讲解,代码速读,FLD,PBRS,footstep,ExBody,humanplus,humanoid-gym
【论文代码复现122】基于强化学习的路径规划问题||强化学习和群智能优化算法有什么区别
通俗易懂!一口气学完人工智能入门到精通:机器学习+深度学习+强化学习,课程涵盖所有基础知识及项目实战,三位计算机大佬倾囊相授!
吹爆!这绝对是同济大学最出名的AI Agent系列课程了,零基础阶段必备的前沿AI技术,还不会打造专属大模型智能体来打我!人工智能|机器学习|深度学习|强化学习
太...太强了!上海交大和腾讯强强联合打造的机器学习+深度学习+强化学习 课程分享!(人工智能/AI)
深度强化学习Carla实战-SAC算法(二)--SAC-Carla训练过程
2_从零开始学习强化学习_MDP基础概念
青龙人形机器人开源强化学习库GymLoong测试
OpenRLHF:大规模分布式RLHF训练系统介绍
LLM大型语言模型如何进行微调? RLHF强化学习代码解读
GPT-4o玩黑神话悟空? 阿里研究纯靠大模型无需强化学习,精英怪胜率持平人类玩家
强推!吴恩达大佬又出新课了!《Hugging Face中的开源模型》双语字幕,究极通俗易懂!人工智能|AI|机器学习|深度学习
草履虫都能毕业!Opencv+YOLO实时目标检测,计算机视觉方向从零到实战,带你做毕设!(计算机视觉/深度学习/Opencv/YOLO)
TCN+itransformer时间序列预测源码
三指灵巧手,强化学习手内灵巧操作连续成功
【深度强化学习 CS285 2023】伯克利—中英字幕
强推!不愧是李宏毅教授!一口气把机器学习、深度学习、强化学习、神经网络、生成式AI给讲透了!存下吧,真的比啃书好多了!(AI人工智能/ChatGPT)
PX4自动代码生成,pixhawk,使用MBD搭建神经网络控制四旋翼,强化学习,神经网络控制,四旋翼姿态控制
研一研二必看!清华大佬刘知远团队【AI大模型】教程,看完少走99%的弯路!!!
强化训练Cot成为新的scaling law Cot为什么让大模型变强? 斯坦福论文揭秘
入门到进阶!一口气学完CNN、RNN、GAN、transformer、ResNet、BERT、GPT、YOLO等八大深度学习神经网络算法模型!
吴恩达大佬又出新课了!《Hugging Face中的开源模型》双语字幕,16集全,建议收藏!-huggingface、开源模型、吴恩达
草履虫都能听懂!B站最全最详细的【时间序列预测模型】教程,从入门到精通!(LSTM/Informer/ARIMA/PandasTransformer)
提点利器!教你缝合CNN+LSTM+KAN模型来做时间序列预测任务!-神经网络/深度学习/机器学习
Vanna开源Text to SQL项目
一步步教AI玩游戏,强化学习通关教程!2024必学AI课程,赶紧收藏学习起来吧!
上海交大张伟楠强化学习课程第10讲:深度强化学习策略方法I