V
主页
[pytorch distributed] 从 DDP、模型并行、流水线并行到 FSDP(NCCL,deepspeed 与 Accelerate)
发布人
本期 code: https://github.com/chunhuizhang/pytorch_distribute_tutorials/blob/main/tutorials/FSDP.ipynb deepspeed 介绍:BV1rZ42187PA nccl通信源语:BV1t2421F7zY,BV1zK42187Kv 自动混合精度(amp)训练:BV1eW421w7NJ ddp:BV13L411i7Ls 模型并行:BV15h4y1V7xe 张量并行:BV1Jy4y1A76p
打开封面
下载高清视频
观看高清视频
视频下载器
PyTorch数据并行怎么实现?DP、DDP、FSDP数据并行原理?【分布式并行】系列第02篇
【研1.5基本功 (真的很简单)DeepSpeed & Accelerate】学点大模型基建准没错
Deepspeed大模型分布式框架精讲
【14分钟】大模型技术之模型并行
DeepSpeed:炼丹小白居家旅行必备【神器】
大模型分布式训练FSDP和DeepSpeed
分布式并行框架DeepSpeed介绍 #大模型 #分布式并行 #训练
[pytorch distributed] torch 分布式基础(process group),点对点通信,集合通信
[pytorch distributed] accelerate 基本用法(config,launch)数据并行
分布式训练框架Megatron-LM代码概览 #大模型 #分布式并行 #训练
pytorch多GPU并行训练教程
[pytorch distributed] 张量并行与 megtron-lm 及 accelerate 配置
[pytorch distributed] 01 nn.DataParallel 数据并行初步
[pytorch distributed] 05 张量并行(tensor parallel),分块矩阵的角度,作用在 FFN 以及 Attention 上
动画理解Pytorch 大模型分布式训练技术 DP,DDP,DeepSpeed ZeRO技术
模型优化技术概览
[pytorch distributed] 04 模型并行(model parallel)on ResNet50
[pytorch distributed] deepspeed 基本概念、原理(os+g+p)
[pytorch distributed] 02 DDP 基本概念(Ring AllReduce,node,world,rank,参数服务器)
怎么加快大模型推理?10分钟学懂VLLM内部原理,KV Cache,PageAttention
21大模型全栈-分布式训练04-模型并行02-流水线并行GPipe和PipeDream原理
[pytorch distributed] nccl 集合通信(collective communication)
[pytorch 加速] CPU传输 & GPU计算的并行(pin_memory,non_blocking)
[pytorch distributed] 03 DDP 初步应用(Trainer,torchrun)
[pytorch distributed] amp 原理,automatic mixed precision 自动混合精度
33、完整讲解PyTorch多GPU分布式训练代码编写
[RLHF] 从 PPO rlhf 到 DPO,公式推导与原理分析
[LLMs inference] quantization 量化整体介绍(bitsandbytes、GPTQ、GGUF、AWQ)
[手推公式] sigmoid 及其导数 softmax 及其导数性质(从 logits 到 probabilities)
[personal chatgpt] 从 RoPE 到 CoPE(绝对位置编码,相对位置编码,Contextual Position Encoding)
[AI Agent] function calling & tool uses 与 argument generation
[动手写bert系列] 01 huggingface tokenizer (vocab,encode,decode)原理及细节
00后清华计算机女大 勇闯湾区大厂|美国实习VLOG
[personal chatgpt] Llama2 7B vs. Llama3 8B (词表、attention 及 mlp)
[AI Agent] Agentic Reasoning & workflow工作流,及translation-agent 一个具体的 agent 项目
[AI Agent] llama_index RAG 原理及源码分析
[pytorch 强化学习] 01 认识环境(environment,gym.Env)以及 CartPole-v0/v1 环境
[QKV attention] kv-cache、decoder only vs. BERT, 单向注意力 vs. 双向注意力
AI 工程师都应该知道的GPU工作原理,TensorCore
[QKV attention] flash attention(Tiling与重计算),operation fused,HBM vs. SRAM