V
主页
[bert、t5、gpt] 04 构建 TransformerEncoderLayer(FFN 与 Layer Norm、skip connection)
发布人
本期code:https://github.com/chunhuizhang/bert_t5_gpt/blob/main/tutorials/04_ffn_layer_norm_skip_conn.ipynb
打开封面
下载高清视频
观看高清视频
视频下载器
[bert、t5、gpt] 05 构建 TransformerDecoderLayer(FFN 与 Masked MultiHeadAttention)
[bert、t5、gpt] 11 知识蒸馏(knowledge distill)huggingface trainer pipeline
[动手写bert系列] 01 huggingface tokenizer (vocab,encode,decode)原理及细节
[bert、t5、gpt] 10 知识蒸馏(knowledge distill)初步,模型结构及损失函数设计
[动手写 bert 系列] bert model architecture 模型架构初探(embedding + encoder + pooler)
[[bert、t5、gpt] 02 transformer 架构 scaled dot product self attention(qkv)
[bert、t5、gpt] 01 fine tune transformers 文本分类/情感分析
[bert、t5、gpt] 08 GPT2 sampling (top-k,top-p (nucleus sampling))
[bert、t5、gpt] 09 T5 整体介绍(t5-11b,T5ForConditionalGeneration)
[bert、t5、gpt] 07 GPT2 decoding (greedy search, beam search)
[LLMs 实践] 17 llama2 源码分析(RMSNorm 与 SwiGLU)
[bert、t5、gpt] 06 GPT2 整体介绍(tokenizer,model forward)
[[bert、t5、gpt] 03 AttentionHead 与 MultiHeadAttention
[动手写Bert系列] bertencoder self attention 计算细节及计算过程
[性能测试] 03 单 4090 BERT、GPT2、T5 TFLOPS 测试及对比 3090TI
[pytorch] nn.Embedding 前向查表索引过程与 one hot 关系及 max_norm 的作用
[pytorch 网络拓扑结构] 深入理解 nn.LayerNorm 的计算过程
[动手写 bert 系列] Bert 中的(add & norm)残差连接与残差模块(residual connections/residual blocks)
[动手写神经网络] 手动实现 Transformer Encoder
[动手写 bert 系列] 02 tokenizer encode_plus, token_type_ids(mlm,nsp)
[模型拓扑结构] pytorch 注册钩子函数(register_forward_hook)实现对各个层(layer)输入输出 shape 的查看
6 BERT模型训练3-损失函数构建、模型训练
[动手写 bert 系列] bert embedding 源码解析,word_embedding/position_embedding/token_type
[动手写 bert 系列] 解析 bertmodel 的output(last_hidden_state,pooler_output,hidden_state)
[QKV attention] kv-cache、decoder only vs. BERT, 单向注意力 vs. 双向注意力
[性能测试] 04 双4090 BERT、GPT性能测试(megatron-lm、apex、deepspeed)
[pytorch模型拓扑结构] nn.MultiheadAttention, init/forward, 及 query,key,value 的计算细节
【全374集】2024最新清华内部版!终于把AI大模型(LLM)讲清楚了!全程干货讲解,通俗易懂,拿走不谢!
[动手写bert系列] BertSelfLayer 多头注意力机制(multi head attention)的分块矩阵实现
[AI 核心概念及计算] 概率计算 01 pytorch 最大似然估计(MLE)伯努利分布的参数
[动手写bert] bert pooler output 与 bert head
都2024了,还不知道先学Transformer还是Diffusion?迪哥精讲BERT、Swin、DETR、VIT四大核心模型,原理讲解+论文解读+代码复现!
[pytorch distributed] 05 张量并行(tensor parallel),分块矩阵的角度,作用在 FFN 以及 Attention 上
【全126集】目前B站最系统的Transformer教程!入门到进阶,全程干货讲解!拿走不谢!(神经网络/NLP/注意力机制/大模型/GPT/RNN)
[BERT 番外] Sin Position Encoding 的简洁实现(RoPE 基础)
强推!草履虫都能一口气学完CNN、RNN、GAN、GNN、DQN、Transformer、LSTM、DBN等八大深度学习神经网络算法!真的比刷剧还爽!
[矩阵分析] 从向量范数到矩阵范数、torch spectral norm(矩阵的谱范数)
[动手写 bert 系列] torch.no_grad() vs. param.requires_grad == False
吹爆!不愧是中科院大佬,7天就把Transformer、RNN、BERT和迁移学习讲透了!整整100集付费,全程干货讲解,这还学不会up直接退出IT圈!
[调包侠] 使用 PyTorch Swin Transformer 完成图像分类