[pytorch 番外] Tensorboard 与计算图初步（算子与 ATen）

发布人

本期code：https://github.com/chunhuizhang/llm_aigc/blob/main/tutorials/nn_basics/tensorboard_graph.ipynb

打开封面下载高清视频观看高清视频视频下载器

[番外] float16 与 bf16 表示和计算细节

[pytorch] Tensor 轴（axis）交换，transpose（转置）、swapaxes、permute

[pytorch] Tensor shape 变化 view 与 reshape（contiguous 的理解）

[pytorch] torch.nn.Bilinear 计算过程与 einsum（爱因斯坦求和约定）

[lora 番外] LoRA merge 与 SVD（矩阵奇异值分解）

[pytorch distributed] accelerate 基本用法（config，launch）数据并行

[动手写神经网络] 01 认识 pytorch 中的 dataset、dataloader（mnist、fashionmnist、cifar10）

[pytorch] torch.einsum 到索引到矩阵运算（index、shape、dimension、axis）

[LLMs 实践] 13 gradient checkpointing 显存优化 trick

[pytorch distributed] 张量并行与 megtron-lm 及 accelerate 配置

[pytorch] [求导练习] 04 前向计算与反向传播与梯度更新（forward，loss.backward(), optimizer.step）

[矩阵分析] 从向量范数到矩阵范数、torch spectral norm（矩阵的谱范数）

[pytorch distributed] 01 nn.DataParallel 数据并行初步

[pytorch 网络拓扑结构] 深入理解 nn.LayerNorm 的计算过程

[pytorch 强化学习] 02 将 env rendering 保存为 mp4/gif（以 CartPole 为例，mode='rgb_array'）

[pytorch] F.binary_cross_entropy（二分类）与 F.cross_entropy（多分类）

[pytorch 强化学习] 07 迷宫环境（maze environment）Q Learning（value iteration）求解（策略关闭 off）

[动手写Bert系列] bertencoder self attention 计算细节及计算过程

[pytorch distributed] 03 DDP 初步应用（Trainer，torchrun）

[pytorch] [求导练习] 03 计算图（computation graph）及链式法则（chain rule）反向传播过程

[pytorch optim] Adam 与 AdamW，L2 reg 与 weight decay，deepseed

[pytorch optim] 优化器相关 AdaGrad（adaptive gradient）与 RMSprop，自适应梯度

[pytorch distributed] nccl 集合通信（collective communication）

[leetcode reviews] 01 计算思维与刷题方法

[pytorch模型拓扑结构] nn.MultiheadAttention, init/forward, 及 query，key，value 的计算细节

[LLM 番外] 自回归语言模型cross entropy loss，及 PPL 评估

[pytorch 模型拓扑结构] 深入理解 nn.CrossEntropyLoss 计算过程（nn.NLLLoss(nn.LogSoftmax))

[bert、t5、gpt] 10 知识蒸馏（knowledge distill）初步，模型结构及损失函数设计

[GPT 番外] tied/share tensors wte与lm_head（GPT2LMHeadModel）

[AI 核心概念及计算] 概率计算 01 pytorch 最大似然估计（MLE）伯努利分布的参数

[pytorch] 多项式分布及采样（torch.multinomial, torch distribution Categorical）

[pytorch 网络模型结构] batchnorm train 及 eval 模式的差异及（running_mean, running_var）的计算细节

[蒙特卡洛方法] 03 接受/拒绝采样（accept/reject samping）初步 cases 分析

[pytorch 强化学习] 08 CartPole Q learning 连续状态离散化（digitize 分桶）及 display_frame_as_gif

[pytorch 强化学习] 12 逐行写代码实现 DQN 完全体

[pytorch] 激活函数（梯度消失）sigmoid，clamp，relu（sparse representation，dying relu）

[pytorch 强化学习] 03 动手写迷宫环境（maze env）状态及动作策略初步（及动画保存）

[pytorch optim] 优化器相关 - learning rate scheduler

[全栈算法] docker nvidia pytorch gpu 环境及容器操作，端口号映射

[pytorch 模型拓扑结构] 深入理解 nn.BCELoss 计算过程及 backward 及其与 CrossEntropyLoss 的区别与联系

[pytorch 番外] Tensorboard 与计算图初步（算子与 ATen）

[番外] float16 与 bf16 表示和计算细节

[pytorch] Tensor 轴（axis）交换，transpose（转置）、swapaxes、permute

[pytorch] Tensor shape 变化 view 与 reshape（contiguous 的理解）

[pytorch] torch.nn.Bilinear 计算过程与 einsum（爱因斯坦求和约定）

[lora 番外] LoRA merge 与 SVD（矩阵奇异值分解）

[pytorch distributed] accelerate 基本用法（config，launch）数据并行

[动手写神经网络] 01 认识 pytorch 中的 dataset、dataloader（mnist、fashionmnist、cifar10）

[pytorch] torch.einsum 到索引到矩阵运算（index、shape、dimension、axis）

[LLMs 实践] 13 gradient checkpointing 显存优化 trick

[pytorch distributed] 张量并行与 megtron-lm 及 accelerate 配置

[pytorch] [求导练习] 04 前向计算与反向传播与梯度更新（forward，loss.backward(), optimizer.step）

[矩阵分析] 从向量范数到矩阵范数、torch spectral norm（矩阵的谱范数）

[pytorch distributed] 01 nn.DataParallel 数据并行初步

[pytorch 网络拓扑结构] 深入理解 nn.LayerNorm 的计算过程

[pytorch 强化学习] 02 将 env rendering 保存为 mp4/gif（以 CartPole 为例，mode='rgb_array'）

[pytorch] F.binary_cross_entropy（二分类） 与 F.cross_entropy（多分类）

[pytorch 强化学习] 07 迷宫环境（maze environment）Q Learning（value iteration）求解（策略关闭 off）

[动手写Bert系列] bertencoder self attention 计算细节及计算过程

[pytorch distributed] 03 DDP 初步应用（Trainer，torchrun）

[pytorch] [求导练习] 03 计算图（computation graph）及链式法则（chain rule）反向传播过程

[pytorch optim] Adam 与 AdamW，L2 reg 与 weight decay，deepseed

[pytorch optim] 优化器相关 AdaGrad（adaptive gradient） 与 RMSprop，自适应梯度

[pytorch distributed] nccl 集合通信（collective communication）

[leetcode reviews] 01 计算思维与刷题方法

[pytorch模型拓扑结构] nn.MultiheadAttention, init/forward, 及 query，key，value 的计算细节

[LLM 番外] 自回归语言模型cross entropy loss，及 PPL 评估

[pytorch 模型拓扑结构] 深入理解 nn.CrossEntropyLoss 计算过程（nn.NLLLoss(nn.LogSoftmax))

[bert、t5、gpt] 10 知识蒸馏（knowledge distill）初步，模型结构及损失函数设计

[GPT 番外] tied/share tensors wte与lm_head（GPT2LMHeadModel）

[AI 核心概念及计算] 概率计算 01 pytorch 最大似然估计（MLE）伯努利分布的参数

[pytorch] 多项式分布及采样（torch.multinomial, torch distribution Categorical）

[pytorch 网络模型结构] batchnorm train 及 eval 模式的差异及（running_mean, running_var）的计算细节

[蒙特卡洛方法] 03 接受/拒绝采样（accept/reject samping）初步 cases 分析

[pytorch 强化学习] 08 CartPole Q learning 连续状态离散化（digitize 分桶）及 display_frame_as_gif

[pytorch 强化学习] 12 逐行写代码实现 DQN 完全体

[pytorch] 激活函数（梯度消失）sigmoid，clamp，relu（sparse representation，dying relu）

[pytorch 强化学习] 03 动手写迷宫环境（maze env）状态及动作策略初步（及动画保存）

[pytorch optim] 优化器相关 - learning rate scheduler

[全栈算法] docker nvidia pytorch gpu 环境及容器操作，端口号映射

[pytorch 模型拓扑结构] 深入理解 nn.BCELoss 计算过程及 backward 及其与 CrossEntropyLoss 的区别与联系

[pytorch] F.binary_cross_entropy（二分类）与 F.cross_entropy（多分类）

[pytorch optim] 优化器相关 AdaGrad（adaptive gradient）与 RMSprop，自适应梯度