V
主页
[pytorch 强化学习] 07 迷宫环境(maze environment)Q Learning(value iteration)求解(策略关闭 off)
发布人
code:https://github.com/chunhuizhang/bilibili_vlogs/blob/master/rl/tutorials/06_value_iteration_q_learning.ipynb 迷宫环境:https://www.bilibili.com/video/BV1Ye411P7Sw/?spm_id_from=333.999.0.0 系列视频:https://space.bilibili.com/59807853/channel/collectiondetail?sid=908186
打开封面
下载高清视频
观看高清视频
视频下载器
[pytorch 强化学习] 06 迷宫环境(maze environment)SARSA(Q-table,value iteration)求解
[pytorch 强化学习] 04 迷宫环境(maze environment)封装 MazeEnv、Agent 类
[pytorch 强化学习] 11 逐行写代码实现 DQN(ReplayMemory,Transition,DQN as Q function)
[pytorch 强化学习] 09 (逐行写代码)CartPole Q learning 基于连续状态离散化(digitize 分桶)
[强化学习基础 02] MDP价值迭代算法(value iteration,V(s), Q(s,a), pi(s))
深度强化学习 PPO 纯白板逐行代码Python实现
[pytorch 强化学习] 08 CartPole Q learning 连续状态离散化(digitize 分桶)及 display_frame_as_gif
[pytorch 强化学习] 13 基于 pytorch 神经网络实现 policy gradient(REINFORCE)求解 CartPole
【统计学】p-value(p值) 与 z-score(标准分/z得分/z分数)定义,计算以及适用场景
[pytorch 强化学习] 10 从 Q Learning 到 DQN(experience replay 与 huber loss / smooth L1)
[pytorch 强化学习] 12 逐行写代码实现 DQN 完全体
[pytorch 强化学习] 02 将 env rendering 保存为 mp4/gif(以 CartPole 为例,mode='rgb_array')
[强化学习基础 01] MDP 基础(概率转移,与POMDP、I-POMDP)
[pytorch 网络拓扑结构] 深入理解 nn.LayerNorm 的计算过程
[pytorch] torch.nn.Bilinear 计算过程与 einsum(爱因斯坦求和约定)
[PyTorch] Dropout 基本原理(前向计算与自动求导)
[pytorch模型拓扑结构] nn.MultiheadAttention, init/forward, 及 query,key,value 的计算细节
[pytorch 强化学习] 03 动手写迷宫环境(maze env)状态及动作策略初步(及动画保存)
[pytorch distributed] amp 原理,automatic mixed precision 自动混合精度
[强化学习基础 03] 多臂老虎机(Multi-Armed Bandit)与 UCB
[全栈算法] docker nvidia pytorch gpu 环境及容器操作,端口号映射
[pytorch distributed] torch 分布式基础(process group),点对点通信,集合通信
[pytorch distributed] accelerate 基本用法(config,launch)数据并行
[概率 & 统计] kl div kl散度的计算及应用(pytorch)
[pytorch distributed] 02 DDP 基本概念(Ring AllReduce,node,world,rank,参数服务器)
【深度学习环境搭建】02 gpu 服务器端部署 jupyter notebook server
[pytorch optim] pytorch 作为一个通用优化问题求解器(目标函数、决策变量)
[pytorch optim] 优化器相关 - learning rate scheduler
[动手写bert系列] BertSelfLayer 多头注意力机制(multi head attention)的分块矩阵实现
从模型预测控制到强化学习-11:确定性策略梯度DPG与随机策略梯度SPG,从控制的角度理解(D)DPG, A2C, QAC, REINFORCE
[pytorch 模型拓扑结构] 深入理解 nn.CrossEntropyLoss 计算过程(nn.NLLLoss(nn.LogSoftmax))
[pytorch] 激活函数(梯度消失)sigmoid,clamp,relu(sparse representation,dying relu)
[动手写神经网络] 01 认识 pytorch 中的 dataset、dataloader(mnist、fashionmnist、cifar10)
[AI 核心概念及计算] 概率计算 01 pytorch 最大似然估计(MLE)伯努利分布的参数
[pytorch distributed] deepspeed 基本概念、原理(os+g+p)
[工具的使用] python jupyter 环境安装配置拓展(nbextension)(ExcecuteTime:执行时间,Table of Content)
[pytorch] torch.einsum 到索引到矩阵运算(index、shape、dimension、axis)
[pytorch] Tensor 轴(axis)交换,transpose(转置)、swapaxes、permute
[动手写Bert系列] bertencoder self attention 计算细节及计算过程
[diffusion] 生成模型基础 VAE 原理及实现