V
主页
[pytorch 强化学习] 05 迷宫环境(maze environment)策略梯度(Policy Gradient)求解
发布人
本期 code:https://github.com/chunhuizhang/bilibili_vlogs/blob/master/rl/tutorials/04_maze_env_policy_gradient.ipynb 系列视频:https://space.bilibili.com/59807853/channel/collectiondetail?sid=908186
打开封面
下载高清视频
观看高清视频
视频下载器
[pytorch 强化学习] 13 基于 pytorch 神经网络实现 policy gradient(REINFORCE)求解 CartPole
[pytorch 强化学习] 01 认识环境(environment,gym.Env)以及 CartPole-v0/v1 环境
[pytorch 强化学习] 07 迷宫环境(maze environment)Q Learning(value iteration)求解(策略关闭 off)
[pytorch 强化学习] 11 逐行写代码实现 DQN(ReplayMemory,Transition,DQN as Q function)
[DRL] 从策略梯度到 TRPO(Lagrange Duality,拉格朗日对偶性)
[pytorch 强化学习] 06 迷宫环境(maze environment)SARSA(Q-table,value iteration)求解
[全栈深度学习] 01 docker 工具的基本使用及 nvidia cuda pytorch 镜像
[强化学习基础 01] MDP 基础(概率转移,与POMDP、I-POMDP)
[pytorch distributed] deepspeed 基本概念、原理(os+g+p)
[pytorch] [求导练习] 03 计算图(computation graph)及链式法则(chain rule)反向传播过程
[leetcode reviews] 01 计算思维与刷题方法
[优化算法] 梯度下降、共轭梯度、牛顿法、逆牛顿法(BFGS)
[AI 核心概念及计算] 优化 01 梯度下降(gradient descent)与梯度上升(gradient ascent)细节及可视化分析
[pytorch 强化学习] 03 动手写迷宫环境(maze env)状态及动作策略初步(及动画保存)
[蒙特卡洛方法] 04 重要性采样补充,数学性质及 On-policy vs. Off-policy
[pytorch] 激活函数,从 ReLU、LeakyRELU 到 GELU 及其梯度(gradient)(BertLayer,FFN,GELU)
[pytorch distributed] 从 DDP、模型并行、流水线并行到 FSDP(NCCL,deepspeed 与 Accelerate)
[pytorch] 激活函数(梯度消失)sigmoid,clamp,relu(sparse representation,dying relu)
[pytorch 强化学习] 04 迷宫环境(maze environment)封装 MazeEnv、Agent 类
[pytorch optim] pytorch 作为一个通用优化问题求解器(目标函数、决策变量)
[pytorch] [求导练习] 04 前向计算与反向传播与梯度更新(forward,loss.backward(), optimizer.step)
[pytorch 强化学习] 12 逐行写代码实现 DQN 完全体
[personal chatgpt] 从 RoPE 到 CoPE(绝对位置编码,相对位置编码,Contextual Position Encoding)
[pytorch optim] Adam 与 AdamW,L2 reg 与 weight decay,deepseed
[pytorch 网络拓扑结构] 深入理解 nn.LayerNorm 的计算过程
【深度学习环境搭建】01 本机、GPU服务器端深度学习环境搭建(代码、数据共享)
[pytorch 强化学习] 09 (逐行写代码)CartPole Q learning 基于连续状态离散化(digitize 分桶)
[LLMs 实践] 13 gradient checkpointing 显存优化 trick
[动手写神经网络] 05 使用预训练 resnet18 提升 cifar10 分类准确率及误分类图像可视化分析
[pytorch 强化学习] 02 将 env rendering 保存为 mp4/gif(以 CartPole 为例,mode='rgb_array')
[全栈算法] docker nvidia pytorch gpu 环境及容器操作,端口号映射
[pytorch distributed] 01 nn.DataParallel 数据并行初步
[pytorch distributed] accelerate 基本用法(config,launch)数据并行
[动手写神经网络] 01 认识 pytorch 中的 dataset、dataloader(mnist、fashionmnist、cifar10)
[pytorch] 深入理解 nn.KLDivLoss(kl 散度) 与 nn.CrossEntropyLoss(交叉熵)
[pytorch 计算图] retain_graph 获取非叶子节点的 grad
[LLM && AIGC] 05 OpenAI 长文本(long text,超出 max_tokens)处理及 summary,划分 chunk 处理
[pytorch optim] 优化器相关 AdaGrad(adaptive gradient) 与 RMSprop,自适应梯度
[pytorch] nn.Embedding 前向查表索引过程与 one hot 关系及 max_norm 的作用
[矩阵分析] LoRA 矩阵分析基础之 SVD low rank approximation(低秩逼近)