V
主页
[bert、t5、gpt] 10 知识蒸馏(knowledge distill)初步,模型结构及损失函数设计
发布人
本期code:https://github.com/chunhuizhang/bert_t5_gpt/blob/main/tutorials/11_knowledge_distillation_basics.ipynb
打开封面
下载高清视频
观看高清视频
视频下载器
[bert、t5、gpt] 11 知识蒸馏(knowledge distill)huggingface trainer pipeline
Kill Devil吃鸡!波爆灵LCQ燃尽自己
[数学!数学] 最大似然估计(MLE)与最小化交叉熵损失(cross entropy loss)的等价性
英伟达最强模型瘦身思路:即跑即用,参数直接减半 性能领跑Next Level
[bert、t5、gpt] 07 GPT2 decoding (greedy search, beam search)
[[bert、t5、gpt] 03 AttentionHead 与 MultiHeadAttention
AI人工智能前沿(互关互赞) LinFusion的新方法,旨在解决现有扩散模型在生成高分辨率视觉内容时面临的时间和内存复杂性问题 线性注意机制 知识蒸馏
[bert、t5、gpt] 01 fine tune transformers 文本分类/情感分析
[bert、t5、gpt] 09 T5 整体介绍(t5-11b,T5ForConditionalGeneration)
[[bert、t5、gpt] 02 transformer 架构 scaled dot product self attention(qkv)
[动手写bert系列] 01 huggingface tokenizer (vocab,encode,decode)原理及细节
[QKV attention] kv-cache、decoder only vs. BERT, 单向注意力 vs. 双向注意力
[bert、t5、gpt] 08 GPT2 sampling (top-k,top-p (nucleus sampling))
[bert、t5、gpt] 05 构建 TransformerDecoderLayer(FFN 与 Masked MultiHeadAttention)
[bert、t5、gpt] 06 GPT2 整体介绍(tokenizer,model forward)
[损失函数设计] 为什么多分类问题损失函数用交叉熵损失,而不是 MSE
他相信长夜将至,因为火把就在他的手中
[动手写 bert 系列] torch.no_grad() vs. param.requires_grad == False
[动手写 bert] masking 机制、bert head 与 BertForMaskedLM
[BERT 番外] Sin Position Encoding 的简洁实现(RoPE 基础)
[动手写 bert 系列] 解析 bertmodel 的output(last_hidden_state,pooler_output,hidden_state)
[bert、t5、gpt] 04 构建 TransformerEncoderLayer(FFN 与 Layer Norm、skip connection)
[python 全栈] 正则表达式初步与指南
[性能测试] 04 双4090 BERT、GPT性能测试(megatron-lm、apex、deepspeed)
[蒙特卡洛方法] 03 接受/拒绝采样(accept/reject samping)初步 cases 分析
[pytorch distributed] 01 nn.DataParallel 数据并行初步
[动手写 bert 系列] 02 tokenizer encode_plus, token_type_ids(mlm,nsp)
[动手写Bert系列] bertencoder self attention 计算细节及计算过程
[优化算法] 梯度下降、共轭梯度、牛顿法、逆牛顿法(BFGS)
[personal chatgpt] gpt-4o tokenizer 及特殊中文tokens(压缩词表),o200k_base
[LangChain] 05 LangChain、LangGraph 结构化输出(Structured output),gpt-4o-2024-08-06
[动手写 bert 系列] bert embedding 源码解析,word_embedding/position_embedding/token_type
[flask web 核心] 02 使用 jinja 创建模板 html 及初步使用 bootstrap 丰富页面内容
[动手写bert] bert pooler output 与 bert head
[动手写 bert 系列] bert model architecture 模型架构初探(embedding + encoder + pooler)
[pytorch 番外] Tensorboard 与计算图初步(算子与 ATen)
[pytorch 强化学习] 10 从 Q Learning 到 DQN(experience replay 与 huber loss / smooth L1)
[动手写 bert 系列] BertTokenizer subword,wordpiece 如何处理海量数字等长尾单词
[矩阵分析] 分块矩阵的角度理解矩阵运算(独热向量与对角矩阵)
【手推公式】可导损失函数(loss function)的梯度下降(GD)、随机梯度下降(SGD)以及mini-batch gd梯度优化策略