[bert、t5、gpt] 10 知识蒸馏（knowledge distill）初步，模型结构及损失函数设计 - 视频下载 Video Downloader

[bert、t5、gpt] 10 知识蒸馏（knowledge distill）初步，模型结构及损失函数设计

发布人

本期code：https://github.com/chunhuizhang/bert_t5_gpt/blob/main/tutorials/11_knowledge_distillation_basics.ipynb

打开封面下载高清视频观看高清视频视频下载器

[bert、t5、gpt] 11 知识蒸馏（knowledge distill）huggingface trainer pipeline

[bert、t5、gpt] 09 T5 整体介绍（t5-11b，T5ForConditionalGeneration）

[bert、t5、gpt] 05 构建 TransformerDecoderLayer（FFN 与 Masked MultiHeadAttention）

[[bert、t5、gpt] 02 transformer 架构 scaled dot product self attention（qkv）

[bert、t5、gpt] 06 GPT2 整体介绍（tokenizer，model forward）

[bert、t5、gpt] 01 fine tune transformers 文本分类/情感分析

[bert、t5、gpt] 07 GPT2 decoding （greedy search, beam search）

[bert、t5、gpt] 08 GPT2 sampling （top-k，top-p （nucleus sampling））

[bert、t5、gpt] 04 构建 TransformerEncoderLayer（FFN 与 Layer Norm、skip connection）

[pytorch 番外] Tensorboard 与计算图初步（算子与 ATen）

[性能测试] 04 双4090 BERT、GPT性能测试（megatron-lm、apex、deepspeed）

[pytorch模型拓扑结构] nn.MultiheadAttention, init/forward, 及 query，key，value 的计算细节

[动手写 bert 系列] bert embedding 源码解析，word_embedding/position_embedding/token_type

[sbert 02] sbert 前向及损失函数pooling method计算细节

[[bert、t5、gpt] 03 AttentionHead 与 MultiHeadAttention

[动手写 bert 系列] 02 tokenizer encode_plus, token_type_ids（mlm，nsp）

[pytorch 网络拓扑结构] 深入理解 nn.LayerNorm 的计算过程

[QKV attention] kv-cache、decoder only vs. BERT, 单向注意力 vs. 双向注意力

[动手写 bert 系列] BertTokenizer subword，wordpiece 如何处理海量数字等长尾单词

[GPT 番外] tied/share tensors wte与lm_head（GPT2LMHeadModel）

[pytorch 模型拓扑结构] 深入理解 nn.BCELoss 计算过程及 backward 及其与 CrossEntropyLoss 的区别与联系

[pytorch 模型拓扑结构] 深入理解 nn.BatchNorm2d/3d

[LLMs 实践] 10 预训练语料，mapping & streaming（load_dataset）

[python 全栈] 正则表达式初步与指南

[动手写 bert 系列] bert model architecture 模型架构初探（embedding + encoder + pooler）

[pytorch distributed] 03 DDP 初步应用（Trainer，torchrun）

[数学！数学] 最大似然估计（MLE）与最小化交叉熵损失（cross entropy loss）的等价性

【手推公式】xgboost自定义损失函数（cross entropy/squared log loss）及其一阶导数gradient二阶导数hessian

[动手写 bert 系列] Bert 中的（add & norm）残差连接与残差模块（residual connections/residual blocks）

[蒙特卡洛方法] 03 接受/拒绝采样（accept/reject samping）初步 cases 分析

[动手写bert系列] 01 huggingface tokenizer （vocab，encode，decode）原理及细节

[凸函数] convex 性质与简森不等式（jensen's inequality）与 ELBO、投资组合理论（Porfolio）

[动手写 bert] masking 机制、bert head 与 BertForMaskedLM

[调包侠] 04 使用预训练模型进行图像特征向量提取（image feature extractor，img2vec）并进行相似性计算

[einops 01] einsum 补充与 einops 初步（实现 ViT 的图像分块）

[pytorch] 激活函数，从 ReLU、LeakyRELU 到 GELU 及其梯度（gradient）（BertLayer，FFN，GELU）

[pytorch 模型拓扑结构] pytorch 矩阵乘法大全（torch.dot, mm, bmm, @, *, matmul）

[flask web 核心] 02 使用 jinja 创建模板 html 及初步使用 bootstrap 丰富页面内容

[LLMs 实践] 19 llama2 源码分析 RoPE apply_rotary_emb 从绝对位置编码到相对位置编码

[动手写bert] bert pooler output 与 bert head