[pytorch 强化学习] 08 CartPole Q learning 连续状态离散化（digitize 分桶）及 display_frame_as_gif

发布人

本期code：https://github.com/chunhuizhang/bilibili_vlogs/blob/master/rl/tutorials/07_cart_pole_digitize_space.ipynb
gym doc：https://www.gymlibrary.dev/environments/classic_control/cart_pole/

打开封面下载高清视频观看高清视频视频下载器

[RLHF] 从 PPO rlhf 到 DPO，公式推导与原理分析

为什么Isaac gym 读取的速度不等于位置的微分呀，用pd算的力矩不就是错的吗

三指灵巧手，强化学习手内灵巧操作连续成功

吹爆一个印度老哥的算法课程！ 🎉你们可能还在怀疑他们的实力，但我要告诉你，一旦你真正了解过，就会知道他们在算法和IT界的地位，简直就是教科书般的存在！

你最庆幸自己读过那本书！那么一定是这本！

研一在读，代码完全不会，如何入门深度学习？

[pytorch 强化学习] 11 逐行写代码实现 DQN（ReplayMemory，Transition，DQN as Q function）

[pytorch 强化学习] 07 迷宫环境（maze environment）Q Learning（value iteration）求解（策略关闭 off）

导师放养不教，那我来教！20分钟一步步带着你实操从零复现一篇机器学习深度学习论文！-神经网络/pytorch

【深度强化学习】华盛顿大学Steve Brunton教授精讲《数据驱动的科学与工程：机器学习、动态系统与控制》

PyTorch深度学习实践！不愧是公认讲的最好的【pytorch实践教程】12小时带你从入门到实践

【黑神话：悟空】中机器学习算法的奇妙运用，从机器学习到游戏性能优化，一口气学完机器学习经典算法-机器学习/深度学习/强化学习/算法/智能NPC

35年首次证明！神经网络登上Nature：神经网络具有人类泛化能力，是人工智能的又一重大突破！

强化学习论文分享20240725

这绝对是全B站最系统（没有之一）的人工智能基础教学！内含机器学习、深度学习、强化学习、NLP、等多个方向解析，零基础必看！

狗王争霸挑战赛，2周快速入门强化学习与locomotion

对于卷积神经网络，硕士博士不需要弄明白原理只需要应用，是这样吗？

【神经网络杀疯了！】登上了nature神坛！迎来人工智能新的里程碑：被证明具有泛化能力，能像人类一样思考！

发论文idea来了！强化学习融合Transformer，全是创新点！

[pytorch 强化学习] 10 从 Q Learning 到 DQN（experience replay 与 huber loss / smooth L1）

【自动驾驶技术】花18000大价钱买的无人驾驶课程，从入门到提升的自动驾驶算法——感知实战、视觉定位、预测系统、路径规划、控制理论、强化学习

强化学习论文分享20240801

训练了下转向，感觉还行

[强化学习基础 01] MDP 基础（概率转移，与POMDP、I-POMDP）

搞深度学习因数据不够质量不好导致模型性能差怎么办？30分钟用一个视频全都给你解决！-神经网络/图像处理/计算机视觉

强推！这绝对是B站最通俗易懂的【PyTorch深度学习实战】教学！草履虫都能听懂！（人工智能）

基于仿真系统的强化学习系列，pybullet仿真系统篇(1)

研究生竟然这样找创新点？一年水了5篇SCI！不需要脑子的5大创新点套路，研一研二必看！

[小白向-深度学习装机指南] 01 双4090 涡轮版开箱启动 vlog（gpu burn，cpu burn）

openai o1模型背后原理分析（一）龙哥推荐这3篇论文就行啦

一个神级代码复现网站，里面99%的论文都能找到！

入门必看！9月1日后开始准备学人工智能，没有方向直接学这套人工智能教程（Python+机器学习+深度学习）！

【深度学习环境搭建】01 本机、GPU服务器端深度学习环境搭建（代码、数据共享）

openai提出强化学习scaling law 英伟达又要赚麻啦 o1大模型吊打所有模型

反向传播登Nature！深度学习还不如浅层网络？

知网，再见！中科院推出8000万免费数据库，可检索1.7亿资源，测试非常流畅好用！刚测试了下，非常流畅好用！强烈建议所有本硕博学生找AI方向的论文用起来!

视觉大模型SAM2.0分割一切！全细节精讲SAM2论文，首个实现视频实时抠像的AI大模型！这还不起飞？

[pytorch] 激活函数（梯度消失）sigmoid，clamp，relu（sparse representation，dying relu）

我在B站上大学系列！北大王树森精讲7小时搞懂深度强化学习！建议收藏！

人形机器人远程视觉操纵分拣论文和代码在简介

[pytorch 强化学习] 08 CartPole Q learning 连续状态离散化（digitize 分桶）及 display_frame_as_gif

[RLHF] 从 PPO rlhf 到 DPO，公式推导与原理分析

为什么Isaac gym 读取的速度不等于位置的微分呀，用pd算的力矩不就是错的吗

三指灵巧手，强化学习手内灵巧操作连续成功

吹爆一个印度老哥的算法课程！ 🎉你们可能还在怀疑他们的实力，但我要告诉你，一旦你真正了解过，就会知道他们在算法和IT界的地位，简直就是教科书般的存在！

你最庆幸自己读过那本书！那么一定是这本！

研一在读，代码完全不会，如何入门深度学习？

[pytorch 强化学习] 11 逐行写代码实现 DQN（ReplayMemory，Transition，DQN as Q function）

[pytorch 强化学习] 07 迷宫环境（maze environment）Q Learning（value iteration）求解（策略关闭 off）

导师放养不教，那我来教！20分钟一步步带着你实操从零复现一篇机器学习深度学习论文！-神经网络/pytorch

【深度强化学习】华盛顿大学Steve Brunton教授精讲《数据驱动的科学与工程：机器学习、动态系统与控制》

PyTorch深度学习实践！不愧是公认讲的最好的【pytorch实践教程】12小时带你从入门到实践

【黑神话：悟空】中机器学习算法的奇妙运用，从机器学习到游戏性能优化，一口气学完机器学习经典算法-机器学习/深度学习/强化学习/算法/智能NPC

35年首次证明！神经网络登上Nature：神经网络具有人类泛化能力，是人工智能的又一重大突破！

强化学习论文分享20240725

这绝对是全B站最系统（没有之一）的人工智能基础教学！内含机器学习、深度学习、强化学习、NLP、等多个方向解析，零基础必看！

狗王争霸挑战赛，2周快速入门强化学习与locomotion

对于卷积神经网络，硕士博士不需要弄明白原理只需要应用，是这样吗？

【神经网络杀疯了！】登上了nature神坛！迎来人工智能新的里程碑：被证明具有泛化能力，能像人类一样思考！

发论文idea来了！强化学习融合Transformer，全是创新点！

[pytorch 强化学习] 10 从 Q Learning 到 DQN（experience replay 与 huber loss / smooth L1）

【自动驾驶技术】花18000大价钱买的无人驾驶课程，从入门到提升的自动驾驶算法——感知实战、视觉定位、预测系统、路径规划、控制理论、强化学习

强化学习论文分享20240801

训练了下转向，感觉还行

[强化学习基础 01] MDP 基础（概率转移，与POMDP、I-POMDP）

搞深度学习因数据不够质量不好导致模型性能差怎么办？30分钟用一个视频全都给你解决！-神经网络/图像处理/计算机视觉

强推！这绝对是B站最通俗易懂的【PyTorch深度学习实战】教学！草履虫都能听懂！（人工智能）

基于仿真系统的强化学习系列，pybullet仿真系统篇(1)

研究生竟然这样找创新点？一年水了5篇SCI！不需要脑子的5大创新点套路，研一研二必看！

[小白向-深度学习装机指南] 01 双4090 涡轮版开箱启动 vlog（gpu burn，cpu burn）

openai o1模型背后原理分析（一） 龙哥推荐这3篇论文就行啦

一个神级代码复现网站，里面99%的论文都能找到！

入门必看！9月1日后开始准备学人工智能，没有方向直接学这套人工智能教程（Python+机器学习+深度学习）！

【深度学习环境搭建】01 本机、GPU服务器端深度学习环境搭建（代码、数据共享）

openai提出强化学习scaling law 英伟达又要赚麻啦 o1大模型吊打所有模型

反向传播登Nature！深度学习还不如浅层网络？

知网，再见！中科院推出8000万免费数据库，可检索1.7亿资源，测试非常流畅好用！刚测试了下，非常流畅好用！强烈建议所有本硕博学生找AI方向的论文用起来!

视觉大模型SAM2.0分割一切！全细节精讲SAM2论文，首个实现视频实时抠像的AI大模型！这还不起飞？

[pytorch] 激活函数（梯度消失）sigmoid，clamp，relu（sparse representation，dying relu）

我在B站上大学系列！北大王树森精讲7小时搞懂深度强化学习！建议收藏！

人形机器人远程视觉操纵 分拣 论文和代码在简介

openai o1模型背后原理分析（一）龙哥推荐这3篇论文就行啦

人形机器人远程视觉操纵分拣论文和代码在简介