试验不咋成功又不咋失败系列1:继续是MANN的policy，但是，调完之后步态还是不咋好看，流泪了 - 视频下载 Video Downloader

试验不咋成功又不咋失败系列1:继续是MANN的policy，但是，调完之后步态还是不咋好看，流泪了

发布人

-

打开封面下载高清视频观看高清视频视频下载器

试验失败系列1号作品：基于transformer的rl policy（希望下次能好点吧…哭泣）

步态好些了，但是感觉爬楼还是一般，扎心了

代码库更新系列一：大家快来康康！github ：LocomotionWithNP3O

成功小实验系列1:修改了下reward然后kp30 kd0.75训练以及部署，貌似姿态还改善了呢

基于强化学习的go2 sim2real部署展示（业余爱好大佬勿喷）

试验成功系列2:基于MANN的policy，改了些东西之后稳定多了(动作还是很丑呢）

试验失败系列2:基于MANN的policy，其实走的还成，就是上楼梯太暴力了，得再改改…

ETH 最新RL成果，已开源！SMUG 规划器：适用于具有挑战性环境下的移动机器人的安全多目标规划器

【通用】人形机器人RL策略Gazebo二次仿真框架

博士论文答辩 - Alexander Schperberg - 统一基于模型的优化和机器学习

调了如此久，感觉上楼梯稳定性还是差，都开始怀疑自己是不是上楼的时候把腰杆推歪了

[强化学习]为什么我做的实验结果和论文里的结果不一样

请问强化学习的损失是上升的怎么回事

4K光追的强化学习——IsaacSimLab(Orbit)测试

适用于人形和四足的仿真器 The Simple Simulator 最新成果去简介github 地址试用下吧

双足机器人的建模与仿真 MATLAB and Simulink

买了成品机器人，花了一周建模，准备上机

【强化学习入门】9.3 Policy Gradient 算法概述+实验设计

11大模型全栈-强化学习04-RLHF实战-deepspeed-chat实战

基于强化学习的机器人轴孔装配仿真

ANYmal C 机器狗复杂地形穿越能力展示 #机器狗性能

[ICRA 24] Resilient Legged Local Navigation

[RSS 24] Rethinking Robustness Assessment 重新思考鲁棒性评估

08大模型全栈-强化学习01-RLHF前言传统强化学习

宇树 B2 机器狗严苛环境下越障测试 #机器狗性能

3月调试寄录-失败

mamba out？mamba-2：孩子们我回来了，顶会ICML拿下！

PPO算法在Unity中控制卫星完成协同通讯

09大模型全栈-强化学习02-RLHF前言LLM强化学习

为什么说强化学习在近年不会被广泛应用？

【上新】SIGMA free ++++++++++版发布啦

我们把机器人拉出门散了个步，还是原来的模型，没有新训练 [Humanoid Parkour Learning]

基于QT的可视化路由训练平台+DQN强化学习（七剑学院QT项目，开发中）

【实验Demo】机器人在有限空间内的人群导航

10大模型全栈-强化学习03-RLHF原理以及流程介绍

打了一个月的飞机，我现在的心情只能用这首歌来形容

2024智源大会特邀报告 Reinforcement Learning with Large Datasets

12大模型全栈-强化学习05-RLHF实战-端到端全流程解决方案-轩辕大模型强化学习完整流程介绍（数据+奖励模型+强化学习调参经验）

太牛了！颠覆传统【深度强化学习】，被应用于多个经典强化学习算法中的异步强化学习方法究竟有何跨时代意义？一篇论文解析告诉你！！！

我们的人形机器人不愿意使用大模型去思考。但是它很爱玩耍。[humanoid parkour learning]