V
主页
[pytorch 强化学习] 05 迷宫环境(maze environment)策略梯度(Policy Gradient)求解
发布人
本期 code:https://github.com/chunhuizhang/bilibili_vlogs/blob/master/rl/tutorials/04_maze_env_policy_gradient.ipynb 系列视频:https://space.bilibili.com/59807853/channel/collectiondetail?sid=908186
打开封面
下载高清视频
观看高清视频
视频下载器
[pytorch 强化学习] 01 认识环境(environment,gym.Env)以及 CartPole-v0/v1 环境
[pytorch 强化学习] 03 动手写迷宫环境(maze env)状态及动作策略初步(及动画保存)
[pytorch 强化学习] 07 迷宫环境(maze environment)Q Learning(value iteration)求解(策略关闭 off)
[pytorch 强化学习] 06 迷宫环境(maze environment)SARSA(Q-table,value iteration)求解
[DRL] 从策略梯度到 TRPO(Lagrange Duality,拉格朗日对偶性)
[pytorch 强化学习] 13 基于 pytorch 神经网络实现 policy gradient(REINFORCE)求解 CartPole
[强化学习基础 01] MDP 基础(概率转移,与POMDP、I-POMDP)
[pytorch 强化学习] 10 从 Q Learning 到 DQN(experience replay 与 huber loss / smooth L1)
[pytorch 强化学习] 11 逐行写代码实现 DQN(ReplayMemory,Transition,DQN as Q function)
[pytorch 强化学习] 02 将 env rendering 保存为 mp4/gif(以 CartPole 为例,mode='rgb_array')
[动手写神经网络] 手动实现 Transformer Encoder
[蒙特卡洛方法] 04 重要性采样补充,数学性质及 On-policy vs. Off-policy
[强化学习基础 03] 多臂老虎机(Multi-Armed Bandit)与 UCB
[LLM && AIGC] 05 OpenAI 长文本(long text,超出 max_tokens)处理及 summary,划分 chunk 处理
[pytorch 强化学习] 08 CartPole Q learning 连续状态离散化(digitize 分桶)及 display_frame_as_gif
[AI 核心概念及计算] 优化 01 梯度下降(gradient descent)与梯度上升(gradient ascent)细节及可视化分析
[pytorch 强化学习] 12 逐行写代码实现 DQN 完全体
【深度学习环境搭建】02 gpu 服务器端部署 jupyter notebook server
[优化算法] 梯度下降、共轭梯度、牛顿法、逆牛顿法(BFGS)
[pytorch distributed] deepspeed 基本概念、原理(os+g+p)
[强化学习基础 02] MDP价值迭代算法(value iteration,V(s), Q(s,a), pi(s))
[pytorch optim] pytorch 作为一个通用优化问题求解器(目标函数、决策变量)
[pytorch distributed] 01 nn.DataParallel 数据并行初步
[pytorch] [求导练习] 04 前向计算与反向传播与梯度更新(forward,loss.backward(), optimizer.step)
[LLMs 实践] 11 gradient accumulation 显存优化 trick
[全栈算法] docker nvidia pytorch gpu 环境及容器操作,端口号映射
[pytorch 强化学习] 09 (逐行写代码)CartPole Q learning 基于连续状态离散化(digitize 分桶)
[pytorch] [求导练习] 06 计算图(computation graph)细节之 retain graph(multi output/backwar)
[pytorch distributed] 张量并行与 megtron-lm 及 accelerate 配置
[动手写神经网络] 05 使用预训练 resnet18 提升 cifar10 分类准确率及误分类图像可视化分析
[pytorch distributed] torch 分布式基础(process group),点对点通信,集合通信
[pytorch 计算图] retain_graph 获取非叶子节点的 grad
[工具的使用] python jupyter 环境安装配置拓展(nbextension)(ExcecuteTime:执行时间,Table of Content)
[pytorch distributed] 从 DDP、模型并行、流水线并行到 FSDP(NCCL,deepspeed 与 Accelerate)
[动手写bert系列] 01 huggingface tokenizer (vocab,encode,decode)原理及细节
[蒙特卡洛方法] 02 重要性采样(importance sampling)及 python 实现
scr自制迷宫教程,还有……
[Python 机器学习] 深入理解 numpy(ndarray)的 axis(轴/维度)
[pytorch] [求导练习] 01 sigmoid 函数自动求导练习(autograd,单变量,多变量 multivariables 形式)
[RLHF] 从 PPO rlhf 到 DPO,公式推导与原理分析