V
主页
[性能测试] 04 双4090 BERT、GPT性能测试(megatron-lm、apex、deepspeed)
发布人
本期code:https://github.com/chunhuizhang/deeplearning-envs/blob/main/03_multi_4090s_transformers.ipynb
打开封面
下载高清视频
观看高清视频
视频下载器
[性能测试] 03 单 4090 BERT、GPT2、T5 TFLOPS 测试及对比 3090TI
[[bert、t5、gpt] 02 transformer 架构 scaled dot product self attention(qkv)
[[bert、t5、gpt] 03 AttentionHead 与 MultiHeadAttention
[bert、t5、gpt] 11 知识蒸馏(knowledge distill)huggingface trainer pipeline
[bert、t5、gpt] 08 GPT2 sampling (top-k,top-p (nucleus sampling))
[bert、t5、gpt] 05 构建 TransformerDecoderLayer(FFN 与 Masked MultiHeadAttention)
[bert、t5、gpt] 07 GPT2 decoding (greedy search, beam search)
[bert、t5、gpt] 10 知识蒸馏(knowledge distill)初步,模型结构及损失函数设计
[pytorch distributed] deepspeed 基本概念、原理(os+g+p)
[QKV attention] kv-cache、decoder only vs. BERT, 单向注意力 vs. 双向注意力
[动手写bert系列] 01 huggingface tokenizer (vocab,encode,decode)原理及细节
[动手写 bert 系列] bert model architecture 模型架构初探(embedding + encoder + pooler)
[动手写 bert 系列] bert embedding 源码解析,word_embedding/position_embedding/token_type
[动手写bert系列] BertSelfLayer 多头注意力机制(multi head attention)的分块矩阵实现
[动手写 bert 系列] 02 tokenizer encode_plus, token_type_ids(mlm,nsp)
[动手写Bert系列] bertencoder self attention 计算细节及计算过程
[动手写 bert] masking 机制、bert head 与 BertForMaskedLM
[AI硬件科普] 内存/显存带宽,从 NVIDIA 到苹果 M4
[LLM 番外] 自回归语言模型cross entropy loss,及 PPL 评估
[pytorch 网络拓扑结构] 深入理解 nn.LayerNorm 的计算过程
[动手写bert] bert pooler output 与 bert head
[动手写 bert 系列] Bert 中的(add & norm)残差连接与残差模块(residual connections/residual blocks)
[调包侠] 04 使用预训练模型进行图像特征向量提取(image feature extractor,img2vec)并进行相似性计算
[bert、t5、gpt] 04 构建 TransformerEncoderLayer(FFN 与 Layer Norm、skip connection)
[蒙特卡洛方法] 04 重要性采样补充,数学性质及 On-policy vs. Off-policy
【python 运筹优化】scipy.optimize.minimize 使用
[bert、t5、gpt] 06 GPT2 整体介绍(tokenizer,model forward)
[BERT 番外] Sin Position Encoding 的简洁实现(RoPE 基础)
[pytorch distributed] 从 DDP、模型并行、流水线并行到 FSDP(NCCL,deepspeed 与 Accelerate)
[装机指南] 02 双卡4090 gpu-burn,cpu-burn,cuda-samples 性能测试
[pytorch 强化学习] 02 将 env rendering 保存为 mp4/gif(以 CartPole 为例,mode='rgb_array')
[pytorch 模型拓扑结构] 深入理解 nn.BCELoss 计算过程及 backward 及其与 CrossEntropyLoss 的区别与联系
爱否:苹果没有放弃廉价版vision;Appleintelligence还是不成熟啊
[LLM && AIGC] 04 深入理解 openai tokenizer 及 api 中的 logit_bias 与 logprobs
[动手写神经网络] 04 使用预训练 vgg 提升 cifar10 分类准确率
[LLMs 实践] 19 llama2 源码分析 RoPE apply_rotary_emb 从绝对位置编码到相对位置编码
[personal chatgpt] trl 基础介绍:reward model,ppotrainer
[LLMs 实践] 09 BPE gpt2 tokenizer 与 train tokenizer
[pytorch模型拓扑结构] nn.MultiheadAttention, init/forward, 及 query,key,value 的计算细节
[animation & rendering] matplotlib funcanimation 多重动画绘制(multiple lines plot)