分布式并行策略基础介绍！【分布式并行】系列第01篇 - 视频下载 Video Downloader

分布式并行策略基础介绍！【分布式并行】系列第01篇

发布人

【分布式并行】系列第01篇：分布式并行策略基础介绍！

分布式训练不只是只有数据并行、模型并行。实际上要训练大模型、要利用分布式训练能力，需要从AI集群开始了解，通过通信把机器跟机器之间建立网络拓扑关系。有了AI集群，而且还可以互相通信，研究大模型算法去咯！但是研究大模型算法，需要AI框架支持分布式系统功能。现在我们来了解下分布式集群都有哪些内容吧！

打开封面下载高清视频观看高清视频视频下载器

[pytorch distributed] 从 DDP、模型并行、流水线并行到 FSDP（NCCL，deepspeed 与 Accelerate）

分布式技术原理与实战45讲

MIT大佬终于把分布式系统讲的明白了，现分享给大家！【高清双语字幕】

分布式训练、分布式集群的基础介绍！【分布式集群】第01篇

【王树森】并行计算与分布式机器学习

中国科学技术大学-并行计算（国家级精品课）

并行计算期末

【14分钟】大模型技术之模型并行

【7分钟】大模型技术之数据并行

PyTorch数据并行怎么实现？DP、DDP、FSDP数据并行原理？【分布式并行】系列第02篇

模型压缩架构和流程介绍！量化/剪枝/蒸馏/二值化4件套！【推理系统】模型压缩第01篇

大模型是怎么训起来的？分布式并行框架介绍 #大模型 #分布式并行 #训练

AI集群的软硬件通信：从硬件PCIE、NVLINK、RDMA原理到通信NCCL、MPI原理！【分布式集群】系列第03篇

大模型是什么？大模型有什么用？训练大模型会遇到哪些挑战？【分布式算法】第01篇

分布式并行框架DeepSpeed介绍 #大模型 #分布式并行 #训练

分布式训练总结！【大模型与分布式训练】系列第07篇

编译器和解释器啥区别？AOT和JIT啥区别？Pass和IR又是什么？【AI编译器】系列01篇

什么是张量并行？张量并行的数学原理是什么？【分布式并行】系列第03篇

计算图有哪些内容知识？【计算图】系列第一篇

AI框架内容介绍：AI框架基础、AI框架之争、AI编程范式！【AI框架基础】系列第一篇

从CPU发展和组成看并行架构！【AI芯片】芯片基础01

33、完整讲解PyTorch多GPU分布式训练代码编写

AI集群用什么服务器架构？Ring All Reduce算法跟物理网络啥关系？【分布式集群】系列第02篇

什么是推理系统？推理有哪些应用？【推理系统】系列01篇

模型并行的流水线并行来啦！了解下GPipe和PipeDream？【分布式并行】系列第05篇

混合并行？多维并行？有多维度混合在一起并行吗？【分布式并行】系列第06篇

为什么需要AI编译器？跟传统编译器啥关系吗？【AI编译器】系列第一篇

如何计算模型参数量？什么是FLOPS和MACC？【推理系统】模型小型化第01篇

深入GPU原理：线程和缓存关系【AI芯片】GPU原理01

AI芯片涉及哪些知识？【AI芯片】内容简介

Kernel优化架构介绍！【推理引擎】Kernel优化第01篇

大模型算法有哪种结构？怎么样才算大模型呢？从Transformer和MOE结构看大模型发展！【分布式算法】系列第02篇

张量还能自动并行？MindSpore张量自动并行啥原理？【大模型与分布式训练】系列04篇

想了解自动微分吗？自动微分内容介绍！【自动微分】系列第一篇！

AI框架如何实现动静统一？PyTorch和MindSpore动静统一做得如何了？【计算图】第六篇

AI集群机器间是怎么通信？通信原语是个什么玩意？【分布式集群】系列第04篇

ChatGPT狂飙：GPT家族详解！【ChatGPT原理】第01篇

为什么大模型都用Transformer结构？ #AIInfra #大模型 #Transformer

AI编译器前端"图层优化"内容概览！！【AI编译器】系列之前端优化第01篇

从十亿到万亿规模SOTA大模型有哪些？BERT、GPT3、Switch算法来啦！【分布式算法】系列第03篇