V
主页
[pytorch 强化学习] 03 动手写迷宫环境(maze env)状态及动作策略初步(及动画保存)
发布人
本期code:https://github.com/chunhuizhang/bilibili_vlogs/blob/master/rl/tutorials/03_maze.ipynb 参考:边做边学 pytorch 强化学习系列:https://space.bilibili.com/59807853/channel/collectiondetail?sid=908186 动画及渲染系列(animation & rendering):https://space.bilibili.com/59807853/channel/collectiondetail?sid=819449
打开封面
下载高清视频
观看高清视频
视频下载器
Unity使用自己的强化学习算法(DQN)训练智能体——学习日记
上海交大张伟楠强化学习课程第16讲:基于扩散模型的强化学习
[pytorch 强化学习] 01 认识环境(environment,gym.Env)以及 CartPole-v0/v1 环境
[pytorch 强化学习] 07 迷宫环境(maze environment)Q Learning(value iteration)求解(策略关闭 off)
“强者从来不抱怨环境”
强化训练Cot成为新的scaling law Cot为什么让大模型变强? 斯坦福论文揭秘
[下]6个人形双足强化学习开源项目,论文讲解,代码速读,FLD,PBRS,footstep,ExBody,humanplus,humanoid-gym
会飞的自行车!自行车强化学习跳跃
基于强化学习的机械臂固定时间轨迹跟踪控制仿真【复现】
【论文代码复现122】基于强化学习的路径规划问题||强化学习和群智能优化算法有什么区别
上海交大张伟楠强化学习课程第15讲:AI Agent与决策大模型III
我愿称李宏毅强化学习为天花板课程!简单易懂!清晰明了的 PPO算法强化学习入门教程!深度强化学习、人工智能、神经网络
[pytorch 强化学习] 10 从 Q Learning 到 DQN(experience replay 与 huber loss / smooth L1)
[pytorch distributed] 01 nn.DataParallel 数据并行初步
使用运动约束强化学习的四足机器人
强化学习在生活中的应用
《强化学习》第3.6-3.8章 MDP 马尔可夫决策过程
【深度学习环境搭建】01 本机、GPU服务器端深度学习环境搭建(代码、数据共享)
从模型预测控制到强化学习12:DDPG做动态控制-研究生入学培训答疑
上海交大张伟楠强化学习课程第10讲:深度强化学习策略方法I
[强化学习基础 01] MDP 基础(概率转移,与POMDP、I-POMDP)
[pytorch 强化学习] 09 (逐行写代码)CartPole Q learning 基于连续状态离散化(digitize 分桶)
什么叫鞭辟近里?三小时即可快速上手的【强化学习】系统教程,从零到一系统掌握基础原理及代码实战!
从模型预测控制到强化学习12:DDPG做动态控制-研究生入学培训答疑
[pytorch 强化学习] 13 基于 pytorch 神经网络实现 policy gradient(REINFORCE)求解 CartPole
[旋转 跳跃 后空翻] 四足/人形机器人的分阶段奖励塑造:一种受约束的多目标 RL 方法 | 开源代码在简介
吹爆!这绝对是B站最系统(没有之一)的人工智能教程,Python基础、机器学习、深度学习、强化学习、计算机视觉全详解,还学不会你来打我!
上海交大张伟楠强化学习课程第4讲:动态规划
[diffusion] 生成模型基础 VAE 原理及实现
[蒙特卡洛方法] 03 接受/拒绝采样(accept/reject samping)初步 cases 分析
[pytorch] nn.Embedding 前向查表索引过程与 one hot 关系及 max_norm 的作用
农田里的迷宫,你能走得出吗
斯坦福大学《强化学习|Stanford CS234 Reinforcement Learning Winter 2019》中英字幕(豆包翻译
【深度学习环境搭建】02 gpu 服务器端部署 jupyter notebook server
openai提出强化学习scaling law 英伟达又要赚麻啦 o1大模型吊打所有模型
Slendytubbies 3 - (S2) Training Maze. Collect |30|
[强化学习基础 03] 多臂老虎机(Multi-Armed Bandit)与 UCB
上海交大张伟楠强化学习课程第14讲:多智能体强化学习IV
pairwise motion piror与原版amp高速运动对比效果
2024年最适合新手人群的【Python基础+机器学习+深度学习+强化学习】教程,简单易懂,草履虫都能学会!!!(人工智能课程/python机器学习)