V
主页
分布式并行策略基础介绍!【分布式并行】系列第01篇
发布人
【分布式并行】系列第01篇:分布式并行策略基础介绍! 分布式训练不只是只有数据并行、模型并行。实际上要训练大模型、要利用分布式训练能力,需要从AI集群开始了解,通过通信把机器跟机器之间建立网络拓扑关系。有了AI集群,而且还可以互相通信,研究大模型算法去咯!但是研究大模型算法,需要AI框架支持分布式系统功能。现在我们来了解下分布式集群都有哪些内容吧!
打开封面
下载高清视频
观看高清视频
视频下载器
[pytorch distributed] 从 DDP、模型并行、流水线并行到 FSDP(NCCL,deepspeed 与 Accelerate)
分布式技术原理与实战45讲
MIT大佬终于把分布式系统讲的明白了,现分享给大家!【高清双语字幕】
分布式训练、分布式集群的基础介绍!【分布式集群】第01篇
【王树森】并行计算与分布式机器学习
中国科学技术大学-并行计算(国家级精品课)
并行计算期末
【14分钟】大模型技术之模型并行
【7分钟】大模型技术之数据并行
PyTorch数据并行怎么实现?DP、DDP、FSDP数据并行原理?【分布式并行】系列第02篇
模型压缩架构和流程介绍!量化/剪枝/蒸馏/二值化4件套!【推理系统】模型压缩第01篇
大模型是怎么训起来的?分布式并行框架介绍 #大模型 #分布式并行 #训练
AI集群的软硬件通信:从硬件PCIE、NVLINK、RDMA原理到通信NCCL、MPI原理!【分布式集群】系列第03篇
大模型是什么?大模型有什么用?训练大模型会遇到哪些挑战?【分布式算法】第01篇
分布式并行框架DeepSpeed介绍 #大模型 #分布式并行 #训练
分布式训练总结!【大模型与分布式训练】系列第07篇
编译器和解释器啥区别?AOT和JIT啥区别?Pass和IR又是什么?【AI编译器】系列01篇
什么是张量并行?张量并行的数学原理是什么?【分布式并行】系列第03篇
计算图有哪些内容知识?【计算图】系列第一篇
AI框架内容介绍:AI框架基础、AI框架之争、AI编程范式!【AI框架基础】系列第一篇
从CPU发展和组成看并行架构!【AI芯片】芯片基础01
33、完整讲解PyTorch多GPU分布式训练代码编写
AI集群用什么服务器架构?Ring All Reduce算法跟物理网络啥关系?【分布式集群】系列第02篇
什么是推理系统?推理有哪些应用?【推理系统】系列01篇
模型并行的流水线并行来啦!了解下GPipe和PipeDream?【分布式并行】系列第05篇
混合并行?多维并行?有多维度混合在一起并行吗?【分布式并行】系列第06篇
为什么需要AI编译器?跟传统编译器啥关系吗?【AI编译器】系列第一篇
如何计算模型参数量?什么是FLOPS和MACC?【推理系统】模型小型化第01篇
深入GPU原理:线程和缓存关系【AI芯片】GPU原理01
AI芯片涉及哪些知识?【AI芯片】内容简介
Kernel优化架构介绍!【推理引擎】Kernel优化第01篇
大模型算法有哪种结构?怎么样才算大模型呢?从Transformer和MOE结构看大模型发展!【分布式算法】系列第02篇
张量还能自动并行?MindSpore张量自动并行啥原理?【大模型与分布式训练】系列04篇
想了解自动微分吗?自动微分内容介绍!【自动微分】系列第一篇!
AI框架如何实现动静统一?PyTorch和MindSpore动静统一做得如何了?【计算图】第六篇
AI集群机器间是怎么通信?通信原语是个什么玩意?【分布式集群】系列第04篇
ChatGPT狂飙:GPT家族详解!【ChatGPT原理】第01篇
为什么大模型都用Transformer结构? #AIInfra #大模型 #Transformer
AI编译器前端"图层优化"内容概览!!【AI编译器】系列之前端优化第01篇
从十亿到万亿规模SOTA大模型有哪些?BERT、GPT3、Switch算法来啦!【分布式算法】系列第03篇