V
主页
[强化学习] PPO
发布人
算法:PPO 环境:open ai gym Pendulum-v1 代码:https://github.com/houchangmeng/Reinforcement-Learning
打开封面
下载高清视频
观看高清视频
视频下载器
[强化学习] Carla ego car驶出环岛
代码实现大模型强化学习(PPO),看这个视频就够了。
很好的强化让我的diablo起飞
Unity使用自己的强化学习算法(DQN)训练智能体——学习日记
强化学习教父Sutton持续反向传播算法登Nature!证明深度学习还不如浅层网络
会飞的自行车!自行车强化学习跳跃
强化训练Cot成为新的scaling law Cot为什么让大模型变强? 斯坦福论文揭秘
强化学习在生活中的应用
[强化学习] CarRacing-v2
四足机器人跌落姿态调整 基于强化学习的机器人控制
SOTA ! 浙大最新成果!四足强化学习走梅花桩!
【论文代码复现122】基于强化学习的路径规划问题||强化学习和群智能优化算法有什么区别
使用运动约束强化学习的四足机器人
强化学习创新下一站: 贝叶斯自适应马尔可夫决策过程,设计能自我激励、不断学习的Agent!
我愿称李宏毅强化学习为天花板课程!简单易懂!清晰明了的 PPO算法强化学习入门教程!深度强化学习、人工智能、神经网络
上海交大张伟楠强化学习课程第10讲:深度强化学习策略方法I
GPT-4o玩黑神话悟空? 阿里研究纯靠大模型无需强化学习,精英怪胜率持平人类玩家
从模型预测控制到强化学习12:DDPG做动态控制-研究生入学培训答疑
使用普通商用零件低成本DIY构建四足机器人然后基于强化学习控制
[强化学习] DQN
强化学习付费教程!强化学习实战系列,最全最完整的强化学习教程从零基础开始教学,学完可实战!
基于强化学习的机械臂固定时间轨迹跟踪控制仿真【复现】
上海交大张伟楠强化学习课程第14讲:多智能体强化学习IV
从模型预测控制到强化学习12:DDPG做动态控制-研究生入学培训答疑
《强化学习》第3.6-3.8章 MDP 马尔可夫决策过程
[强化学习] DDPG
我愿称之为强化学习天花板课程!台大李宏毅教授亲授强化学习教程,究极通俗易懂!建议收藏!
【深度强化学习】作者华盛顿大学Steve Brunton教授精讲《数据驱动的科学与工程:机器学习、动态系统与控制》流体动力学、SVD、神经网络
[强化学习] Soft Actor Critic
openai提出强化学习scaling law 英伟达又要赚麻啦 o1大模型吊打所有模型
上海交大张伟楠强化学习课程第12讲:模仿学习I
[上]6个人形双足强化学习开源项目,论文讲解,代码速读,FLD,PBRS,footstep,ExBody,humanplus,humanoid-gym
[强化学习] Advantage Actor Critic
【张雪峰】有什么学不下去,普通家庭出身的我们,除了比学习还有什么,不学习将来又能干什么
2_从零开始学习强化学习_MDP基础概念
[下]6个人形双足强化学习开源项目,论文讲解,代码速读,FLD,PBRS,footstep,ExBody,humanplus,humanoid-gym
[旋转 跳跃 后空翻] 四足/人形机器人的分阶段奖励塑造:一种受约束的多目标 RL 方法 | 开源代码在简介
Carla Parking
这或许是流体力学机器学习最好的视频!机器学习如何在流体力学中应用?Steve Brenton大佬精讲湍流模型,深度强化学习、CFD
1_从零开始学习强化学习_强化学习介绍