V
主页
1.6 大规模训练数据加载优化,消除多余加载器,数据加载通信并行,万卡集群MegaScale
发布人
4.3 数据预处理和加载优化 4.3.1 异步数据预处理 异步数据预处理,训练完成通信同步梯度时,就开始数据预处理/加载。 4.3.2 消除冗余数据加载器 每个GPU都有自己的数据加载器,将数据先读到CPU内存。同一张量并行组,他们输入相同,因此将数据加载到CPU内存只需一个数据加载器,然后各个GPU加载数据到自己显存。
打开封面
下载高清视频
观看高清视频
视频下载器
1.1 大规模/万卡集群训练平台MegaScale的挑战、设计原则、考虑因素、出现原因MegaScale: Scaling Large Language
1.2 大语言模型LLM训练优化,并行注意力、滑动窗口、增加batchsize单次训练数据量,万卡加速训练MegaScale Scaling Large
1.10 万卡集群集群容错性能监控 心跳检测 自行诊断 故障恢复
1.7 大规模集群训练、通信初始化优化、网络拓扑
1.4 NCCL源码解读bootstrap网络连接建立bootstrapInit()引导网络
1.3 bintree二叉树集合通信算法broadcast为例(MPI源码解读NCCL可参考)
1.3 万卡分布式训练,ZeRO数据并行优化 通信与数据加载并行
1.2 zero分布式数据并行方案 zero1,zero2,zero3
1.1 数据并行 模型并行 DP DDP Zero分布式并行
DeepSpeed和Megatron如何调用NCCL源码解读,通信后端初始化init_distributed()
1.1 BookSim2 安装教程 片上网络模拟 NOCs(Network-on-Chips)
1.1 OpenMPI 集合通信算法选择 broadcast为例 (MPI 5.0源码解读)
1.4 集合通信算法拓扑构建 binary tree为例(MPI 5.0源码解读NCCL可参考)
1.3 Zero++分布式并行 数据并行 ZeRO++: Extremely Efficient Collective Communication for
1.5 万卡训练 张量并行优化 数据切片计算通信并行 大规模集群
阿里Paraformer语音识别FunASR训练教程
1.3 NCCL通信器初始化ncclCommInitRank()源码解读
1.5 split bintree集合通信算法broadcast为例(MPI OpenMPI 5.0源码解读NCCL可参考)
1.2 NCCL通信初始化源码详解 ncclGetUniqueId()中ncclInit()、bootstrapGetUniqueId()
1.2 basic linear集合通信算法broadcast为例(Open MPI 5.0源码解读,NCCL可参考)
1.9 底层算子融合为什么能加速计算
1.1 VLLM pagedattention出现的原因 推理框架 Efficient Memory Management for Large Language
1.1 RDMA基本原理和优势,以太网socket通信为什么要用户空间拷贝到内核空间
1.1 NCCL官网案例源码详解One Device per Process or Thread
1.8 大规模集群大模型训练,网络拥塞控制 ECMP PFC DCQCN NCCL通信超时重传
1.2 PagedAttention VLLM核心思想 原理 推理框架 Efficient Memory Management for Large Langua
模型计算量预测 训练时间估计 激活点检查activation checkpoint Scaling Laws for Neural Language Model
【这也太全了】机器学习算法教程!回归算法、聚类算法、决策树、随机森林、神经网络、贝叶斯算法、支持向量机、数据挖掘等十大机器学习算法一口气学完!
小红书图数据库在分布式并行查询上的探索
【2024最新版】秋叶Lora模型训练器,全网最强超详细LoRA模型使用和训练教程!绝对是你看过最好懂的AI绘画模型训练教程!建议收藏~
4国内权威期刊程序复现-基于多智能体系统一致性算法的电力系统分布式经济调度策略
2.1 NCCL拓扑识别感知总览 源码解读
5 控制领域超顶期刊Automatica程序复现-Decentralized event-triggered consensus for linear ...
Transformer实战代码原理(源码Pytorch版本)从零解读(Pytorch版本)
转转业财系统亿级数据存储优化实践
阿尔伯特的进化:学习玩捉人游戏啦!
1.2 BookSim2源码解读1:NoC片上网络模拟 核心函数调用逻辑
【IT老齐557】基于Flink与Kafka实现通用数据处理流程
【付费课程首发】分布式增量爬虫+爬虫接单真实案例!!!学会即可接单,源码真实有效!
架构设计-美团订单存储VS淘宝订单存储-第三集-事务篇