[pytorch 强化学习] 09 （逐行写代码）CartPole Q learning 基于连续状态离散化（digitize 分桶）

发布人

本期 code：https://github.com/chunhuizhang/bilibili_vlogs/blob/master/rl/tutorials/08_cart_pole_q_learning.ipynb
离散状态数值化：BV1Lo4y1k7Mz
系列视频：https://space.bilibili.com/59807853/channel/collectiondetail?sid=908186

打开封面下载高清视频观看高清视频视频下载器

[pytorch 强化学习] 01 认识环境（environment，gym.Env）以及 CartPole-v0/v1 环境

[pytorch 强化学习] 08 CartPole Q learning 连续状态离散化（digitize 分桶）及 display_frame_as_gif

[pytorch 强化学习] 07 迷宫环境（maze environment）Q Learning（value iteration）求解（策略关闭 off）

强化学习，启动！

深度学习环境配置一套搞定：anaconda+pytorch+pycharm+cuda全详解，带你从0配置环境到跑通代码！

[pytorch 强化学习] 12 逐行写代码实现 DQN 完全体

[pytorch 强化学习] 10 从 Q Learning 到 DQN（experience replay 与 huber loss / smooth L1）

[pytorch 强化学习] 13 基于 pytorch 神经网络实现 policy gradient（REINFORCE）求解 CartPole

[强化学习基础 01] MDP 基础（概率转移，与POMDP、I-POMDP）

强化小伙终于起立了

太完整了！我居然3天时间就掌握了【机器学习+深度学习+强化学习+PyTorch】理论到实战，多亏了这个课程，绝对通俗易懂纯干货分享！

[pytorch 强化学习] 04 迷宫环境（maze environment）封装 MazeEnv、Agent 类

[pytorch 强化学习] 03 动手写迷宫环境（maze env）状态及动作策略初步（及动画保存）

[pytorch 强化学习] 06 迷宫环境（maze environment）SARSA（Q-table，value iteration）求解

[pytorch 强化学习] 05 迷宫环境（maze environment）策略梯度（Policy Gradient）求解

每个初学深度学习的小伙伴只需要学这三个项目！学完以后可以说没有什么深度学习代码能够难住你！

宋雨琦签售会让粉丝捏脸

RLChina 2024 | 3小时强化学习入门课程-下

【Yao Class Seminar】关于强化学习可解释性的talk

Diffusion Policy 结合 PPO 模仿+强化（下）

[动手写神经网络] 01 认识 pytorch 中的 dataset、dataloader（mnist、fashionmnist、cifar10）

研一刚入学，从未接触过神经网络python也是才开始学，现在导师要我做LSTM，我应该去学什么？

不愧是顶会收割机！迪哥精讲强化学习4大主流算法：PPO、Q-learning、DQN、A3C 50集入门到精通！

RLHF基于人类反馈的强化学习动画讲解（LLM）

[pytorch] Tensor 轴（axis）交换，transpose（转置）、swapaxes、permute

动画讲解深度强化学习（RL、Q-网络、策略优化、大模型算法入门教程）

Decaying Action Priors for Accelerated Imitation Learning of Torque-Based Legged

[pytorch distributed] 张量并行与 megtron-lm 及 accelerate 配置

这应该是你能找到的讲解最系统全面的【强化学习】教程！北大出身王树森教授从零到一保姆式教学，小白也能很好懂！

强强联合！GNN+强化学习！刷爆SOTA，霸榜顶会的28个方案

深度学习不会写代码？本硕博提升代码能力的利器，这份解决你代码基础差的模板你一定一定不要错过！

[概率 & 统计] kl div kl散度的计算及应用（pytorch）

[pytorch optim] Adam 与 AdamW，L2 reg 与 weight decay，deepseed

CV强化论文分享-20241025-02

[pytorch] torch.nn.Bilinear 计算过程与 einsum（爱因斯坦求和约定）

[pytorch 番外] Tensorboard 与计算图初步（算子与 ATen）

奔跑有点难度，步态很抽象，大佬们有没有什么好建议

[pytorch] 多项式分布及采样（torch.multinomial, torch distribution Categorical）

【ResNet+Transformer】基于PyTorch的迁移学习残差网络Resnet，细胞分类任务、ViT、DERT目标检测

[LLM && AIGC] 04 深入理解 openai tokenizer 及 api 中的 logit_bias 与 logprobs

[pytorch 强化学习] 09 （逐行写代码）CartPole Q learning 基于连续状态离散化（digitize 分桶）

[pytorch 强化学习] 01 认识环境（environment，gym.Env）以及 CartPole-v0/v1 环境

[pytorch 强化学习] 08 CartPole Q learning 连续状态离散化（digitize 分桶）及 display_frame_as_gif

[pytorch 强化学习] 07 迷宫环境（maze environment）Q Learning（value iteration）求解（策略关闭 off）

强化学习，启动！

深度学习环境配置一套搞定：anaconda+pytorch+pycharm+cuda全详解，带你从0配置环境到跑通代码！

[pytorch 强化学习] 12 逐行写代码实现 DQN 完全体

[pytorch 强化学习] 10 从 Q Learning 到 DQN（experience replay 与 huber loss / smooth L1）

[pytorch 强化学习] 13 基于 pytorch 神经网络实现 policy gradient（REINFORCE）求解 CartPole

[强化学习基础 01] MDP 基础（概率转移，与POMDP、I-POMDP）

强化小伙终于起立了

太完整了！我居然3天时间就掌握了【机器学习+深度学习+强化学习+PyTorch】理论到实战，多亏了这个课程，绝对通俗易懂纯干货分享！

[pytorch 强化学习] 04 迷宫环境（maze environment）封装 MazeEnv、Agent 类

[pytorch 强化学习] 03 动手写迷宫环境（maze env）状态及动作策略初步（及动画保存）

[pytorch 强化学习] 06 迷宫环境（maze environment）SARSA（Q-table，value iteration）求解

[pytorch 强化学习] 05 迷宫环境（maze environment）策略梯度（Policy Gradient）求解

每个初学深度学习的小伙伴只需要学这三个项目！学完以后可以说没有什么深度学习代码能够难住你！

宋雨琦签售会让粉丝捏脸

RLChina 2024 | 3小时强化学习入门课程-下

【Yao Class Seminar】关于强化学习可解释性的talk

Diffusion Policy 结合 PPO 模仿+强化 （下）

[动手写神经网络] 01 认识 pytorch 中的 dataset、dataloader（mnist、fashionmnist、cifar10）

研一刚入学，从未接触过神经网络python也是才开始学，现在导师要我做LSTM，我应该去学什么？

不愧是顶会收割机！迪哥精讲强化学习4大主流算法：PPO、Q-learning、DQN、A3C 50集入门到精通！

RLHF基于人类反馈的强化学习动画讲解（LLM）

[pytorch] Tensor 轴（axis）交换，transpose（转置）、swapaxes、permute

动画讲解深度强化学习（RL、Q-网络、策略优化、大模型算法入门教程）

Decaying Action Priors for Accelerated Imitation Learning of Torque-Based Legged

[pytorch distributed] 张量并行与 megtron-lm 及 accelerate 配置

这应该是你能找到的讲解最系统全面的【强化学习】教程！北大出身王树森教授从零到一保姆式教学，小白也能很好懂！

强强联合！GNN+强化学习！刷爆SOTA，霸榜顶会的28个方案

深度学习不会写代码？本硕博提升代码能力的利器，这份解决你代码基础差的模板你一定一定不要错过！

[概率 & 统计] kl div kl散度的计算及应用（pytorch）

[pytorch optim] Adam 与 AdamW，L2 reg 与 weight decay，deepseed

CV强化论文分享-20241025-02

[pytorch] torch.nn.Bilinear 计算过程与 einsum（爱因斯坦求和约定）

[pytorch 番外] Tensorboard 与计算图初步（算子与 ATen）

奔跑有点难度，步态很抽象，大佬们有没有什么好建议

[pytorch] 多项式分布及采样（torch.multinomial, torch distribution Categorical）

【ResNet+Transformer】基于PyTorch的迁移学习残差网络Resnet，细胞分类任务、ViT、DERT目标检测

[LLM && AIGC] 04 深入理解 openai tokenizer 及 api 中的 logit_bias 与 logprobs

Diffusion Policy 结合 PPO 模仿+强化（下）