V
主页
京东 11.11 红包
[pytorch 模型拓扑结构] pytorch 矩阵乘法大全(torch.dot, mm, bmm, @, *, matmul)
发布人
https://space.bilibili.com/59807853/channel/collectiondetail?sid=446911
打开封面
下载高清视频
观看高清视频
视频下载器
[pytorch] 多项式分布及采样(torch.multinomial, torch distribution Categorical)
[pytorch 模型拓扑结构] 深入理解 nn.BatchNorm2d/3d
[概率 & 统计] kl div kl散度的计算及应用(pytorch)
[pytorch distributed] 05 张量并行(tensor parallel),分块矩阵的角度,作用在 FFN 以及 Attention 上
[pytorch] torch.einsum 到索引到矩阵运算(index、shape、dimension、axis)
[pytorch 网络模型结构] batchnorm train 及 eval 模式的差异及(running_mean, running_var)的计算细节
[pytorch] 激活函数(梯度消失)sigmoid,clamp,relu(sparse representation,dying relu)
[pytorch] torch.nn.Bilinear 计算过程与 einsum(爱因斯坦求和约定)
[pytorch 神经网络拓扑结构] pad_sequence/pack_padded_sequence 时序模型如何处理不定长输入
[矩阵分析] 从向量范数到矩阵范数、torch spectral norm(矩阵的谱范数)
[pytorch 强化学习] 02 将 env rendering 保存为 mp4/gif(以 CartPole 为例,mode='rgb_array')
[pytorch 模型拓扑结构] 深入理解 nn.CrossEntropyLoss 计算过程(nn.NLLLoss(nn.LogSoftmax))
[pytorch 网络拓扑结构] 深入理解 nn.LayerNorm 的计算过程
[pytorch distributed] 02 DDP 基本概念(Ring AllReduce,node,world,rank,参数服务器)
[pytorch模型拓扑结构] nn.MultiheadAttention, init/forward, 及 query,key,value 的计算细节
[动手写bert系列] BertSelfLayer 多头注意力机制(multi head attention)的分块矩阵实现
[模型拓扑结构] pytorch 注册钩子函数(register_forward_hook)实现对各个层(layer)输入输出 shape 的查看
[pytorch distributed] 04 模型并行(model parallel)on ResNet50
[LLMs 实践] 13 gradient checkpointing 显存优化 trick
[pytorch distributed] nccl 集合通信(collective communication)
[概率 & 统计] KL 散度(KL div)forward vs. reverse
[pytorch] Tensor 轴(axis)交换,transpose(转置)、swapaxes、permute
[PyTorch] Dropout 基本原理(前向计算与自动求导)
[矩阵分析] 旋转矩阵的计算机与应用(复平面,RoPE)
[动手写 bert 系列] torch.no_grad() vs. param.requires_grad == False
【矩阵分析】从特征值特征向量到矩阵SVD奇异值分解(np.linalg.svd)
[pytorch distributed] 张量并行与 megtron-lm 及 accelerate 配置
[pytorch 模型拓扑结构] 深入理解 nn.BCELoss 计算过程及 backward 及其与 CrossEntropyLoss 的区别与联系
[pytorch optim] 优化器相关 AdaGrad(adaptive gradient) 与 RMSprop,自适应梯度
[模型拓扑接口] 经典 RNN 模型(一)模型参数及训练参数的介绍
[pytorch distributed] amp 原理,automatic mixed precision 自动混合精度
[pytorch 番外] Tensorboard 与计算图初步(算子与 ATen)
[pytorch distributed] deepspeed 基本概念、原理(os+g+p)
[全栈算法] docker nvidia pytorch gpu 环境及容器操作,端口号映射
[lora 番外] LoRA merge 与 SVD(矩阵奇异值分解)
[pytorch] 深入理解 torch.gather 及 dim 与 index 的关系
[[bert、t5、gpt] 02 transformer 架构 scaled dot product self attention(qkv)
[矩阵微分] 标量/矢量关于矢量/矩阵的矩阵微分,深度学习框架反向传播
[leetcode reviews] 207. Course Schedule(图算法,拓扑排序,DAG 环检测)
[pytorch optim] 优化器相关 - learning rate scheduler