[pytorch 强化学习] 05 迷宫环境（maze environment）策略梯度（Policy Gradient）求解

发布人

本期 code：https://github.com/chunhuizhang/bilibili_vlogs/blob/master/rl/tutorials/04_maze_env_policy_gradient.ipynb
系列视频：https://space.bilibili.com/59807853/channel/collectiondetail?sid=908186

打开封面下载高清视频观看高清视频视频下载器

[pytorch 强化学习] 01 认识环境（environment，gym.Env）以及 CartPole-v0/v1 环境

[pytorch 强化学习] 03 动手写迷宫环境（maze env）状态及动作策略初步（及动画保存）

[pytorch 强化学习] 07 迷宫环境（maze environment）Q Learning（value iteration）求解（策略关闭 off）

[pytorch 强化学习] 06 迷宫环境（maze environment）SARSA（Q-table，value iteration）求解

[DRL] 从策略梯度到 TRPO（Lagrange Duality，拉格朗日对偶性）

[pytorch 强化学习] 13 基于 pytorch 神经网络实现 policy gradient（REINFORCE）求解 CartPole

[强化学习基础 01] MDP 基础（概率转移，与POMDP、I-POMDP）

[pytorch 强化学习] 10 从 Q Learning 到 DQN（experience replay 与 huber loss / smooth L1）

[pytorch 强化学习] 11 逐行写代码实现 DQN（ReplayMemory，Transition，DQN as Q function）

[pytorch 强化学习] 02 将 env rendering 保存为 mp4/gif（以 CartPole 为例，mode='rgb_array'）

[动手写神经网络] 手动实现 Transformer Encoder

[蒙特卡洛方法] 04 重要性采样补充，数学性质及 On-policy vs. Off-policy

[强化学习基础 03] 多臂老虎机（Multi-Armed Bandit）与 UCB

[LLM && AIGC] 05 OpenAI 长文本（long text，超出 max_tokens）处理及 summary，划分 chunk 处理

[pytorch 强化学习] 08 CartPole Q learning 连续状态离散化（digitize 分桶）及 display_frame_as_gif

[AI 核心概念及计算] 优化 01 梯度下降（gradient descent）与梯度上升（gradient ascent）细节及可视化分析

[pytorch 强化学习] 12 逐行写代码实现 DQN 完全体

【深度学习环境搭建】02 gpu 服务器端部署 jupyter notebook server

[优化算法] 梯度下降、共轭梯度、牛顿法、逆牛顿法（BFGS）

[pytorch distributed] deepspeed 基本概念、原理（os+g+p）

[强化学习基础 02] MDP价值迭代算法（value iteration，V(s), Q(s,a), pi(s)）

[pytorch optim] pytorch 作为一个通用优化问题求解器（目标函数、决策变量）

[pytorch distributed] 01 nn.DataParallel 数据并行初步

[pytorch] [求导练习] 04 前向计算与反向传播与梯度更新（forward，loss.backward(), optimizer.step）

[LLMs 实践] 11 gradient accumulation 显存优化 trick

[全栈算法] docker nvidia pytorch gpu 环境及容器操作，端口号映射

[pytorch 强化学习] 09 （逐行写代码）CartPole Q learning 基于连续状态离散化（digitize 分桶）

[pytorch] [求导练习] 06 计算图（computation graph）细节之 retain graph（multi output/backwar）

[pytorch distributed] 张量并行与 megtron-lm 及 accelerate 配置

[动手写神经网络] 05 使用预训练 resnet18 提升 cifar10 分类准确率及误分类图像可视化分析

[pytorch distributed] torch 分布式基础（process group），点对点通信，集合通信

[pytorch 计算图] retain_graph 获取非叶子节点的 grad

[工具的使用] python jupyter 环境安装配置拓展（nbextension）（ExcecuteTime：执行时间，Table of Content）

[pytorch distributed] 从 DDP、模型并行、流水线并行到 FSDP（NCCL，deepspeed 与 Accelerate）

[动手写bert系列] 01 huggingface tokenizer （vocab，encode，decode）原理及细节

[蒙特卡洛方法] 02 重要性采样（importance sampling）及 python 实现

scr自制迷宫教程，还有……

[Python 机器学习] 深入理解 numpy（ndarray）的 axis（轴/维度）

[pytorch] [求导练习] 01 sigmoid 函数自动求导练习（autograd，单变量，多变量 multivariables 形式）

[RLHF] 从 PPO rlhf 到 DPO，公式推导与原理分析