[[bert、t5、gpt] 03 AttentionHead 与 MultiHeadAttention

发布人

本期 code：https://github.com/chunhuizhang/bert_t5_gpt/blob/main/tutorials/03_transformer_architecture_multi_head_attention.ipynb
系列视频：https://space.bilibili.com/59807853/channel/collectiondetail?sid=496538

打开封面下载高清视频观看高清视频视频下载器

多头注意力（Multi-Head Attention）

[bert、t5、gpt] 05 构建 TransformerDecoderLayer（FFN 与 Masked MultiHeadAttention）

[[bert、t5、gpt] 02 transformer 架构 scaled dot product self attention（qkv）

[动手写 Transformer] 手动实现 Transformer Decoder（交叉注意力，encoder-decoder cross attentio）

[bert、t5、gpt] 09 T5 整体介绍（t5-11b，T5ForConditionalGeneration）

[bert、t5、gpt] 10 知识蒸馏（knowledge distill）初步，模型结构及损失函数设计

[bert、t5、gpt] 08 GPT2 sampling （top-k，top-p （nucleus sampling））

[bert、t5、gpt] 01 fine tune transformers 文本分类/情感分析

[bert、t5、gpt] 11 知识蒸馏（knowledge distill）huggingface trainer pipeline

[bert、t5、gpt] 07 GPT2 decoding （greedy search, beam search）

[性能测试] 03 单 4090 BERT、GPT2、T5 TFLOPS 测试及对比 3090TI

[QKV attention] kv-cache、decoder only vs. BERT, 单向注意力 vs. 双向注意力

[动手写神经网络] 手动实现 Transformer Encoder

[动手写bert系列] BertSelfLayer 多头注意力机制（multi head attention）的分块矩阵实现

[bert、t5、gpt] 04 构建 TransformerEncoderLayer（FFN 与 Layer Norm、skip connection）

[bert、t5、gpt] 06 GPT2 整体介绍（tokenizer，model forward）

[QKV attention] flash attention（Tiling与重计算），operation fused，HBM vs. SRAM

[动手写bert系列] 01 huggingface tokenizer （vocab，encode，decode）原理及细节

[LLMs inference] hf transformers 中的 KV cache

[pytorch模型拓扑结构] nn.MultiheadAttention, init/forward, 及 query，key，value 的计算细节

[personal chatgpt] Llama2 7B vs. Llama3 8B （词表、attention 及 mlp）

[LLMs 实践] 21 llama2 源码分析 GQA：Grouped Query Attention

[动手写 bert 系列] 解析 bertmodel 的output(last_hidden_state，pooler_output，hidden_state)

[BERT 番外] Sin Position Encoding 的简洁实现（RoPE 基础）

[pytorch distributed] 05 张量并行（tensor parallel），分块矩阵的角度，作用在 FFN 以及 Attention 上

[动手写 bert 系列] 02 tokenizer encode_plus, token_type_ids（mlm，nsp）

[动手写Bert系列] bertencoder self attention 计算细节及计算过程

[动手写神经网络] 01 认识 pytorch 中的 dataset、dataloader（mnist、fashionmnist、cifar10）

[动手写 bert 系列] torch.no_grad() vs. param.requires_grad == False

[性能测试] 04 双4090 BERT、GPT性能测试（megatron-lm、apex、deepspeed）

[DRL] 从 TRPO 到 PPO（PPO-penalty，PPO-clip）

[蒙特卡洛方法] 04 重要性采样补充，数学性质及 On-policy vs. Off-policy

[动手写bert] bert pooler output 与 bert head

[动手写 bert 系列] Bert 中的（add & norm）残差连接与残差模块（residual connections/residual blocks）

[工具的使用] python jupyter 环境安装配置拓展（nbextension）（ExcecuteTime：执行时间，Table of Content）

[LLMs 实践] 20 llama2 源码分析 cache KV（keys、values cache）加速推理

[强化学习基础 03] 多臂老虎机（Multi-Armed Bandit）与 UCB

[动手写 bert] masking 机制、bert head 与 BertForMaskedLM

[pytorch distributed] 01 nn.DataParallel 数据并行初步

[LLMs 实践] 04 PEFT/LoRA 源码分析