[pytorch distributed] 从 DDP、模型并行、流水线并行到 FSDP（NCCL，deepspeed 与 Accelerate） - 视频下载 Video Downloader

[pytorch distributed] 从 DDP、模型并行、流水线并行到 FSDP（NCCL，deepspeed 与 Accelerate）

发布人

本期 code：	https://github.com/chunhuizhang/pytorch_distribute_tutorials/blob/main/tutorials/FSDP.ipynb
deepspeed 介绍：BV1rZ42187PA
nccl通信源语：BV1t2421F7zY，BV1zK42187Kv
自动混合精度（amp）训练：BV1eW421w7NJ
ddp：BV13L411i7Ls
模型并行：BV15h4y1V7xe
张量并行：BV1Jy4y1A76p

打开封面下载高清视频观看高清视频视频下载器

PyTorch数据并行怎么实现？DP、DDP、FSDP数据并行原理？【分布式并行】系列第02篇

【研1.5基本功（真的很简单）DeepSpeed & Accelerate】学点大模型基建准没错

Deepspeed大模型分布式框架精讲

【14分钟】大模型技术之模型并行

DeepSpeed：炼丹小白居家旅行必备【神器】

大模型分布式训练FSDP和DeepSpeed

分布式并行框架DeepSpeed介绍 #大模型 #分布式并行 #训练

[pytorch distributed] torch 分布式基础（process group），点对点通信，集合通信

[pytorch distributed] accelerate 基本用法（config，launch）数据并行

分布式训练框架Megatron-LM代码概览 #大模型 #分布式并行 #训练

pytorch多GPU并行训练教程

[pytorch distributed] 张量并行与 megtron-lm 及 accelerate 配置

[pytorch distributed] 01 nn.DataParallel 数据并行初步

[pytorch distributed] 05 张量并行（tensor parallel），分块矩阵的角度，作用在 FFN 以及 Attention 上

动画理解Pytorch 大模型分布式训练技术 DP，DDP，DeepSpeed ZeRO技术

模型优化技术概览

[pytorch distributed] 04 模型并行（model parallel）on ResNet50

[pytorch distributed] deepspeed 基本概念、原理（os+g+p）

[pytorch distributed] 02 DDP 基本概念（Ring AllReduce，node，world，rank，参数服务器）

怎么加快大模型推理？10分钟学懂VLLM内部原理，KV Cache，PageAttention

21大模型全栈-分布式训练04-模型并行02-流水线并行GPipe和PipeDream原理

[pytorch distributed] nccl 集合通信（collective communication）

[pytorch 加速] CPU传输 & GPU计算的并行（pin_memory，non_blocking）

[pytorch distributed] 03 DDP 初步应用（Trainer，torchrun）

[pytorch distributed] amp 原理，automatic mixed precision 自动混合精度

33、完整讲解PyTorch多GPU分布式训练代码编写

[RLHF] 从 PPO rlhf 到 DPO，公式推导与原理分析

[LLMs inference] quantization 量化整体介绍（bitsandbytes、GPTQ、GGUF、AWQ）

[手推公式] sigmoid 及其导数 softmax 及其导数性质（从 logits 到 probabilities）

[personal chatgpt] 从 RoPE 到 CoPE（绝对位置编码，相对位置编码，Contextual Position Encoding）

[AI Agent] function calling & tool uses 与 argument generation

[动手写bert系列] 01 huggingface tokenizer （vocab，encode，decode）原理及细节

00后清华计算机女大勇闯湾区大厂｜美国实习VLOG

[personal chatgpt] Llama2 7B vs. Llama3 8B （词表、attention 及 mlp）

[AI Agent] Agentic Reasoning & workflow工作流，及translation-agent 一个具体的 agent 项目

[AI Agent] llama_index RAG 原理及源码分析

[pytorch 强化学习] 01 认识环境（environment，gym.Env）以及 CartPole-v0/v1 环境

[QKV attention] kv-cache、decoder only vs. BERT, 单向注意力 vs. 双向注意力

AI 工程师都应该知道的GPU工作原理，TensorCore

[QKV attention] flash attention（Tiling与重计算），operation fused，HBM vs. SRAM