V
主页
[bert、t5、gpt] 11 知识蒸馏(knowledge distill)huggingface trainer pipeline
发布人
本期code:https://github.com/chunhuizhang/bert_t5_gpt/blob/main/tutorials/13_kd_pipeline.ipynb
打开封面
下载高清视频
观看高清视频
视频下载器
难以置信..价差10倍!福建顶配的trainer白水泥这么有实力?甚至还瞒过了验证?!
[bert、t5、gpt] 10 知识蒸馏(knowledge distill)初步,模型结构及损失函数设计
[LLMs 实践] 13 gradient checkpointing 显存优化 trick
[LLMs 实践] 11 gradient accumulation 显存优化 trick
[bert、t5、gpt] 08 GPT2 sampling (top-k,top-p (nucleus sampling))
[动手写bert系列] 01 huggingface tokenizer (vocab,encode,decode)原理及细节
[[bert、t5、gpt] 02 transformer 架构 scaled dot product self attention(qkv)
[bert、t5、gpt] 01 fine tune transformers 文本分类/情感分析
英伟达最强模型瘦身思路:即跑即用,参数直接减半 性能领跑Next Level
[QKV attention] kv-cache、decoder only vs. BERT, 单向注意力 vs. 双向注意力
[bert、t5、gpt] 07 GPT2 decoding (greedy search, beam search)
[bert、t5、gpt] 05 构建 TransformerDecoderLayer(FFN 与 Masked MultiHeadAttention)
[bert、t5、gpt] 09 T5 整体介绍(t5-11b,T5ForConditionalGeneration)
[[bert、t5、gpt] 03 AttentionHead 与 MultiHeadAttention
[bert、t5、gpt] 04 构建 TransformerEncoderLayer(FFN 与 Layer Norm、skip connection)
[动手写 bert 系列] torch.no_grad() vs. param.requires_grad == False
[BERT 番外] Sin Position Encoding 的简洁实现(RoPE 基础)
[动手写 bert 系列] 解析 bertmodel 的output(last_hidden_state,pooler_output,hidden_state)
[bert、t5、gpt] 06 GPT2 整体介绍(tokenizer,model forward)
【手推公式】从 logodds 到 sigmoid 概率化输出,用于 LR、XGBoost 的分类任务
mpv是unix哲学的视频播放器 | Douglas McIlroy 道格拉斯·麦克罗伊| unix philosophy | GNU/Linux | 自由软件
[动手写 bert 系列] 02 tokenizer encode_plus, token_type_ids(mlm,nsp)
【手推公式】multi-classification多分类评估(precision/recall,micro averaging与macro averaging
10分钟带你了解MLOps以及CI/CD
[性能测试] 04 双4090 BERT、GPT性能测试(megatron-lm、apex、deepspeed)
[动手写 bert 系列] bert embedding 源码解析,word_embedding/position_embedding/token_type
[机器学习理论] 霍夫丁不等式(hoeffding's inequality)到 UCB
[蒙特卡洛方法] 01 从黎曼和式积分(Reimann Sum)到蒙特卡洛估计(monte carlo estimation)求积分求期望
[优化算法] 梯度下降、共轭梯度、牛顿法、逆牛顿法(BFGS)
[蒙特卡洛方法] 02 重要性采样(importance sampling)及 python 实现
[RLHF] 从 PPO rlhf 到 DPO,公式推导与原理分析
[personal chatgpt] LLAMA 3 整体介绍(与 LLama 2 的不同?)
[personal chatgpt] 从 RoPE 到 CoPE(绝对位置编码,相对位置编码,Contextual Position Encoding)
【python 运筹优化】scipy.optimize.minimize 使用
[LLMs tuning] 04 optimizer Trainer 优化细节(AdamW,grad clip、Grad Norm)等
[LLMs tuning] 05 StackLlama、SFT+DPO(代码组织、数据处理,pipeline)
[动手写 bert 系列] Bert 中的(add & norm)残差连接与残差模块(residual connections/residual blocks)
[sbert 01] sentence-transformers pipeline
[矩阵分析] LoRA 矩阵分析基础之 SVD low rank approximation(低秩逼近)
[pytorch distributed] 03 DDP 初步应用(Trainer,torchrun)