V
主页
[pytorch 强化学习] 12 逐行写代码实现 DQN 完全体
发布人
参考:https://pytorch.org/tutorials/intermediate/reinforcement_q_learning.html 本期 code:https://github.com/chunhuizhang/bilibili_vlogs/blob/master/rl/tutorials/10_dqn_cart_pole.ipynb
打开封面
下载高清视频
观看高清视频
视频下载器
[pytorch 强化学习] 11 逐行写代码实现 DQN(ReplayMemory,Transition,DQN as Q function)
[pytorch 强化学习] 01 认识环境(environment,gym.Env)以及 CartPole-v0/v1 环境
[pytorch 强化学习] 09 (逐行写代码)CartPole Q learning 基于连续状态离散化(digitize 分桶)
【深度学习环境搭建】01 本机、GPU服务器端深度学习环境搭建(代码、数据共享)
[pytorch 强化学习] 10 从 Q Learning 到 DQN(experience replay 与 huber loss / smooth L1)
[强化学习基础 03] 多臂老虎机(Multi-Armed Bandit)与 UCB
[pytorch 强化学习] 13 基于 pytorch 神经网络实现 policy gradient(REINFORCE)求解 CartPole
[pytorch 强化学习] 02 将 env rendering 保存为 mp4/gif(以 CartPole 为例,mode='rgb_array')
[强化学习基础 01] MDP 基础(概率转移,与POMDP、I-POMDP)
[pytorch 强化学习] 06 迷宫环境(maze environment)SARSA(Q-table,value iteration)求解
[pytorch 强化学习] 07 迷宫环境(maze environment)Q Learning(value iteration)求解(策略关闭 off)
[pytorch 强化学习] 03 动手写迷宫环境(maze env)状态及动作策略初步(及动画保存)
[pytorch 强化学习] 05 迷宫环境(maze environment)策略梯度(Policy Gradient)求解
[pytorch 强化学习] 04 迷宫环境(maze environment)封装 MazeEnv、Agent 类
[动手写神经网络] 手动实现 Transformer Encoder
[强化学习基础 02] MDP价值迭代算法(value iteration,V(s), Q(s,a), pi(s))
[动手写神经网络] 01 认识 pytorch 中的 dataset、dataloader(mnist、fashionmnist、cifar10)
[pytorch 强化学习] 08 CartPole Q learning 连续状态离散化(digitize 分桶)及 display_frame_as_gif
[diffusion] 生成模型基础 VAE 原理及实现
[AI 核心概念及计算] 概率计算 01 pytorch 最大似然估计(MLE)伯努利分布的参数
[调包侠] 使用 PyTorch Swin Transformer 完成图像分类
[pytorch 网络拓扑结构] 深入理解 nn.LayerNorm 的计算过程
[动手写神经网络] 02 逐行写代码 CNN pipeline 图像分类(模型结构、训练、评估)
[pytorch distributed] 01 nn.DataParallel 数据并行初步
[全栈深度学习] 01 docker 工具的基本使用及 nvidia cuda pytorch 镜像
[模型拓扑接口] 经典 RNN 模型(一)模型参数及训练参数的介绍
[pytorch 模型拓扑结构] 深入理解 nn.BCELoss 计算过程及 backward 及其与 CrossEntropyLoss 的区别与联系
[概率 & 统计] kl div kl散度的计算及应用(pytorch)
[pytorch] nn.Embedding 前向查表索引过程与 one hot 关系及 max_norm 的作用
[pytorch distributed] deepspeed 基本概念、原理(os+g+p)
[LLMs 实践] 12 LLM SFT training (trl SFTTrainer、alpaca dataset)
[pytorch 网络拓扑结构] 深度理解 nn.BatchNorm1d
[pytorch] [求导练习] 06 计算图(computation graph)细节之 retain graph(multi output/backwar)
[LLMs 实践] 13 gradient checkpointing 显存优化 trick
[pytorch] [求导练习] 03 计算图(computation graph)及链式法则(chain rule)反向传播过程
[pytorch] Tensor 轴(axis)交换,transpose(转置)、swapaxes、permute
[pytorch 模型拓扑结构] 深入理解 nn.BatchNorm2d/3d
[pytorch 模型拓扑结构] 深入理解 nn.CrossEntropyLoss 计算过程(nn.NLLLoss(nn.LogSoftmax))
[pytorch distributed] torch 分布式基础(process group),点对点通信,集合通信
[动手写神经网络] 06 自定义(kaggle)数据集(custom dataset)、Dataloader,及 train test valid 数据集拆分