[pytorch distributed] deepspeed 基本概念、原理（os+g+p） - 视频下载 Video Downloader

[pytorch distributed] deepspeed 基本概念、原理（os+g+p）

发布人

本期 code：https://github.com/chunhuizhang/pytorch_distribute_tutorials/blob/main/tutorials/deepspeed_accelerate/deepspeed_basics.ipynb
参考：
AMP（automatic mixed precision）：https://www.bilibili.com/video/BV1eW421w7NJ/?spm_id_from=333.999.0.0
Adam + AdamW：https://www.bilibili.com/video/BV1Wt421b7uA/?spm_id_from=333.999.0.0

打开封面下载高清视频观看高清视频视频下载器

DeepSpeed优化器并行ZeRO1/2/3原理 #大模型 #分布式并行 #训练

动画理解Pytorch 大模型分布式训练技术 DP，DDP，DeepSpeed ZeRO技术

DeepSpeed：炼丹小白居家旅行必备【神器】

deepspeed_zero_stage3流程动画

分布式并行框架DeepSpeed介绍 #大模型 #分布式并行 #训练

微软架构师讲解分布式训练框架Deepspeed原理

[pytorch distributed] 02 DDP 基本概念（Ring AllReduce，node，world，rank，参数服务器）

如何配置deepspeed多卡训练大模型

DeepSpeed-Chat 模型训练实战

deepspeed框架-大模型分布式训练与推理

一行代码激活DeepSpeed，提升ChatGLM3-6B模型训练效率

【手把手带你实战HuggingFace Transformers-分布式训练篇】Accelerate + Deepspeed

震惊！我竟然在1080Ti上加载了一个35亿参数的模型（ZeRO, Zero Redundancy Optimizer）

Deepspeedchat代码解读

ZeRO & Fastest BERT: Increasing the scale and speed of deep learning training in

[pytorch distributed] 01 nn.DataParallel 数据并行初步

[pytorch distributed] amp 原理，automatic mixed precision 自动混合精度

DeepSpeed分布式训练框架 DeepSpeed-Chat Step-1-01 简介

[pytorch distributed] accelerate 基本用法（config，launch）数据并行

Deepspeed大模型分布式框架精讲

[pytorch distributed] 从 DDP、模型并行、流水线并行到 FSDP（NCCL，deepspeed 与 Accelerate）

【研1.5基本功（真的很简单）DeepSpeed & Accelerate】学点大模型基建准没错

[pytorch distributed] 03 DDP 初步应用（Trainer，torchrun）

deepspeed 做llama2多机训练

[pytorch distributed] nccl 集合通信（collective communication）

[pytorch optim] Adam 与 AdamW，L2 reg 与 weight decay，deepseed

DeepSpeed-FastGen比vLLM推理性能快2倍，SplitFuse策略 #小工蚁

[pytorch distributed] 05 张量并行（tensor parallel），分块矩阵的角度，作用在 FFN 以及 Attention 上

[pytorch distributed] torch 分布式基础（process group），点对点通信，集合通信

[prompt engineering] 从 CoT 到 ToT（Tree of Thoughts）

[pytorch distributed] 04 模型并行（model parallel）on ResNet50

[QKV attention] kv-cache、decoder only vs. BERT, 单向注意力 vs. 双向注意力

[QKV attention] flash attention（Tiling与重计算），operation fused，HBM vs. SRAM

[动手写bert系列] 01 huggingface tokenizer （vocab，encode，decode）原理及细节

[LLM & AIGC] 01 openai api 的简单介绍（文本生成/指令，图像生成）

[personal chatgpt] LLAMA 3 整体介绍（与 LLama 2 的不同？）

[手推公式] sigmoid 及其导数 softmax 及其导数性质（从 logits 到 probabilities）

[A100 01] A100 服务器开箱，超微平台，gpu、cpu、内存、硬盘等信息查看

[全栈 docker] 03 docker 容器开发（start，exec）及 commit、save、load 持久化，docker vscode