V
主页
[pytorch distributed] 张量并行与 megtron-lm 及 accelerate 配置
发布人
本期 code:https://github.com/chunhuizhang/pytorch_distribute_tutorials/blob/main/tutorials/deepspeed_accelerate/megtron_lm.ipynb 分块矩阵与张量并行:BV1Jy4y1A76p llama3 embedding:BV18E421A7TQ
打开封面
下载高清视频
观看高清视频
视频下载器
[pytorch distributed] 05 张量并行(tensor parallel),分块矩阵的角度,作用在 FFN 以及 Attention 上
[pytorch distributed] nccl 集合通信(collective communication)
[pytorch] Tensor 轴(axis)交换,transpose(转置)、swapaxes、permute
[pytorch 网络拓扑结构] 深入理解 nn.LayerNorm 的计算过程
[pytorch distributed] amp 原理,automatic mixed precision 自动混合精度
[pytorch optim] 优化器相关 - learning rate scheduler
[personal chatgpt] trl 基础介绍:reward model,ppotrainer
[LLMs tuning] 02 accelerate ddp 与 trl SFTTrainer
[pytorch] Tensor shape 变化 view 与 reshape(contiguous 的理解)
[PyTorch] Dropout 基本原理(前向计算与自动求导)
[pytorch 强化学习] 13 基于 pytorch 神经网络实现 policy gradient(REINFORCE)求解 CartPole
[gpt2 番外] training vs. inference(generate),PPL 计算,交叉熵损失与 ignore_index
[pytorch] [求导练习] 02 softmax 函数自动求导练习(autograd,Jacobian matrix)
[性能测试] 04 双4090 BERT、GPT性能测试(megatron-lm、apex、deepspeed)
[LLMs 实践] 13 gradient checkpointing 显存优化 trick
[personal chatgpt] Llama2 7B vs. Llama3 8B (词表、attention 及 mlp)
[personal chatgpt] LLAMA 3 整体介绍(与 LLama 2 的不同?)
[pytorch 模型拓扑结构] 深入理解 nn.BCELoss 计算过程及 backward 及其与 CrossEntropyLoss 的区别与联系
[pytorch 番外] Tensorboard 与计算图初步(算子与 ATen)
[pytorch distributed] 04 模型并行(model parallel)on ResNet50
[LangChain] 02 conversational agents,ReAct、agent_scratchpad 历史过程信息维护
[强化学习基础 01] MDP 基础(概率转移,与POMDP、I-POMDP)
[python 运筹优化] 系统性介绍 scipy 中的非线性最小二乘(NNLS, curve_fit, least_squares)
[leetcode reviews] 62 unique paths, dfs + cache, O(m), O(n)
[GPT 番外] tied/share tensors wte与lm_head(GPT2LMHeadModel)
[pytorch distributed] accelerate 基本用法(config,launch)数据并行
[pytorch 强化学习] 02 将 env rendering 保存为 mp4/gif(以 CartPole 为例,mode='rgb_array')
🆓 Cursor 的免费套餐价值几何?🤔
[AI Agent] function calling & tool uses 与 argument generation
[动手写 bert 系列] bert model architecture 模型架构初探(embedding + encoder + pooler)
[sbert 01] sentence-transformers pipeline
[pytorch optim] 优化器相关 AdaGrad(adaptive gradient) 与 RMSprop,自适应梯度
[pytorch 神经网络拓扑结构] pad_sequence/pack_padded_sequence 时序模型如何处理不定长输入
[LLMs 实践] 14 llama2 introduction 及 fine tune llama2(guanaco dataset)
[pytorch 强化学习] 10 从 Q Learning 到 DQN(experience replay 与 huber loss / smooth L1)
[pytorch 模型拓扑结构] pytorch 矩阵乘法大全(torch.dot, mm, bmm, @, *, matmul)
[全栈 docker] 03 docker 容器开发(start,exec)及 commit、save、load 持久化,docker vscode
[蒙特卡洛方法] 04 重要性采样补充,数学性质及 On-policy vs. Off-policy
[bert、t5、gpt] 06 GPT2 整体介绍(tokenizer,model forward)
[generative models] 概率建模视角下的现代生成模型(生成式 vs. 判别式,采样与密度估计)