V
主页
[pytorch] BN、LN、RMSNorm 及 pre LN vs. post LN 对比,标准化
发布人
本期 code:https://github.com/chunhuizhang/llm_aigc/blob/main/tutorials/nn_basics/normalization.ipynb BatchNorm 1d/2d: BV1dv4y1M79T BatchNorm 2d/3d: BV1vY411N7gb LayerNorm: BV1Fa411p7W3 RMSNorm (llama): BV1e14y1C7G8 einsum:BV1De411X7ei
打开封面
下载高清视频
观看高清视频
视频下载器
[LLMs tuning] 04 optimizer Trainer 优化细节(AdamW,grad clip、Grad Norm)等
[pytorch] nn.Embedding 前向查表索引过程与 one hot 关系及 max_norm 的作用
[LLM+RL] 合成数据与model collapse,nature 正刊封面
[pytorch 强化学习] 01 认识环境(environment,gym.Env)以及 CartPole-v0/v1 环境
[pytorch distributed] 01 nn.DataParallel 数据并行初步
[LLMs 实践] 13 gradient checkpointing 显存优化 trick
[LLMs 实践] 17 llama2 源码分析(RMSNorm 与 SwiGLU)
[LLMs inference] quantization 量化整体介绍(bitsandbytes、GPTQ、GGUF、AWQ)
【矩阵分析】矩阵奇异值与谱范数(spectral norm),F范数(Frobenius norm),核范数(nuclear norm)
[pytorch distributed] torch 分布式基础(process group),点对点通信,集合通信
[pytorch 网络拓扑结构] 深入理解 nn.LayerNorm 的计算过程
[动手写神经网络] 01 认识 pytorch 中的 dataset、dataloader(mnist、fashionmnist、cifar10)
[概率 & 统计] KL 散度(KL div)forward vs. reverse
[pytorch] [求导练习] 02 softmax 函数自动求导练习(autograd,Jacobian matrix)
[pytorch optim] Adam 与 AdamW,L2 reg 与 weight decay,deepseed
智商120的OpenAI ChatGPT o1 国内版无痛体验!真的不止有一点强!
[LLMs 实践] 19 llama2 源码分析 RoPE apply_rotary_emb 从绝对位置编码到相对位置编码
[pytorch 强化学习] 12 逐行写代码实现 DQN 完全体
[pytorch 模型拓扑结构] 深入理解 nn.BCELoss 计算过程及 backward 及其与 CrossEntropyLoss 的区别与联系
[bert、t5、gpt] 04 构建 TransformerEncoderLayer(FFN 与 Layer Norm、skip connection)
[pytorch distributed] 从 DDP、模型并行、流水线并行到 FSDP(NCCL,deepspeed 与 Accelerate)
[pytorch optim] pytorch 作为一个通用优化问题求解器(目标函数、决策变量)
【数字图像处理】HoG+SVM+NMS行人检测(pedestrian detection)(python-opencv)
[LLMs 实践] 18 llama2 源码分析 RoPE 相对位置编码的复数形式
[pytorch] [求导练习] 06 计算图(computation graph)细节之 retain graph(multi output/backwar)
[LLMs tuning] 01 trl SFTTrainer 中的 formatting_func 与 DataCollatorForCompletion
[LLMs 实践] 12 LLM SFT training (trl SFTTrainer、alpaca dataset)
[pytorch distributed] 02 DDP 基本概念(Ring AllReduce,node,world,rank,参数服务器)
[pytorch 强化学习] 10 从 Q Learning 到 DQN(experience replay 与 huber loss / smooth L1)
[动手写神经网络] pytorch 高维张量 Tensor 维度操作与处理,einops
[模型拓扑接口] 经典 RNN 模型(一)模型参数及训练参数的介绍
[personal chatgpt] 从 RoPE 到 CoPE(绝对位置编码,相对位置编码,Contextual Position Encoding)
[diffusion] 生成模型基础 VAE 原理及实现
[pytorch] [求导练习] 05 计算图(computation graph)构建细节之 inplace operation(data与detach)
[LLMs 实践] 04 PEFT/LoRA 源码分析
[LLMs 实践] 08 LLM.int8 量化细节 (load_in_8bit)以及 bitsandbytes 库
[pytorch optim] 优化器相关 - learning rate scheduler
[pytorch distributed] deepspeed 基本概念、原理(os+g+p)
[pytorch] Tensor shape 变化 view 与 reshape(contiguous 的理解)
[AI 核心概念及计算] 概率计算 01 pytorch 最大似然估计(MLE)伯努利分布的参数