V
主页
[动手写bert系列] BertSelfLayer 多头注意力机制(multi head attention)的分块矩阵实现
发布人
动手写bert系列:https://space.bilibili.com/59807853/channel/collectiondetail?sid=496538
打开封面
下载高清视频
观看高清视频
视频下载器
[[bert、t5、gpt] 02 transformer 架构 scaled dot product self attention(qkv)
[pytorch distributed] 05 张量并行(tensor parallel),分块矩阵的角度,作用在 FFN 以及 Attention 上
[[bert、t5、gpt] 03 AttentionHead 与 MultiHeadAttention
[pytorch 网络拓扑结构] 深入理解 nn.LayerNorm 的计算过程
[bert、t5、gpt] 05 构建 TransformerDecoderLayer(FFN 与 Masked MultiHeadAttention)
[pytorch 模型拓扑结构] pytorch 矩阵乘法大全(torch.dot, mm, bmm, @, *, matmul)
[einops 01] einsum 补充与 einops 初步(实现 ViT 的图像分块)
[AI 核心概念及计算] 概率计算 01 pytorch 最大似然估计(MLE)伯努利分布的参数
[动手写 bert] masking 机制、bert head 与 BertForMaskedLM
[动手写Bert系列] bertencoder self attention 计算细节及计算过程
[bert、t5、gpt] 08 GPT2 sampling (top-k,top-p (nucleus sampling))
[pytorch 模型拓扑结构] 深入理解 nn.BCELoss 计算过程及 backward 及其与 CrossEntropyLoss 的区别与联系
[动手写 bert 系列] bert embedding 源码解析,word_embedding/position_embedding/token_type
[lora 番外] LoRA merge 与 SVD(矩阵奇异值分解)
[矩阵分析] 旋转矩阵的计算机与应用(复平面,RoPE)
[pytorch] Tensor 轴(axis)交换,transpose(转置)、swapaxes、permute
[QKV attention] kv-cache、decoder only vs. BERT, 单向注意力 vs. 双向注意力
[pytorch] torch.nn.Bilinear 计算过程与 einsum(爱因斯坦求和约定)
[动手写 bert 系列] Bert 中的(add & norm)残差连接与残差模块(residual connections/residual blocks)
[性能测试] 04 双4090 BERT、GPT性能测试(megatron-lm、apex、deepspeed)
[PyTorch] Dropout 基本原理(前向计算与自动求导)
[概率 & 统计] kl div kl散度的计算及应用(pytorch)
[pytorch] torch.einsum 到索引到矩阵运算(index、shape、dimension、axis)
[pytorch distributed] 张量并行与 megtron-lm 及 accelerate 配置
[动手写 bert 系列] BertTokenizer subword,wordpiece 如何处理海量数字等长尾单词
[pytorch optim] 优化器相关 AdaGrad(adaptive gradient) 与 RMSprop,自适应梯度
[pytorch 番外] Tensorboard 与计算图初步(算子与 ATen)
[bert、t5、gpt] 06 GPT2 整体介绍(tokenizer,model forward)
[pytorch 网络拓扑结构] 深度理解 nn.BatchNorm1d
[pytorch distributed] nccl 集合通信(collective communication)
[bert、t5、gpt] 07 GPT2 decoding (greedy search, beam search)
[pytorch 强化学习] 12 逐行写代码实现 DQN 完全体
[LLMs 实践] 13 gradient checkpointing 显存优化 trick
[GPT 番外] tied/share tensors wte与lm_head(GPT2LMHeadModel)
[bert、t5、gpt] 09 T5 整体介绍(t5-11b,T5ForConditionalGeneration)
【矩阵分析】斐波那契数列(Fibonacci)通项公式的(矩阵矢量)推导
[动手写神经网络] 01 认识 pytorch 中的 dataset、dataloader(mnist、fashionmnist、cifar10)
[bert、t5、gpt] 04 构建 TransformerEncoderLayer(FFN 与 Layer Norm、skip connection)
[leetcode reviews] list of list 矩阵转置与旋转(transpose & rotate)
[矩阵分析] 从向量范数到矩阵范数、torch spectral norm(矩阵的谱范数)