V
主页
自动并行论文分享:Alpa
发布人
当前深度学习模型的规模越来越大,如何在分布式设备集群上训练超大规模模型已经成为了当前学术界和产业界的重要研究方向。本论文将并行方法分为算子内并行和算子间并行,提出了一种使用该分类方式生成并行计划的端到端系统Alpa,本次视频分享主要从算子内并行和算子间并行的角度入手介绍Alpa的具体实现。
打开封面
下载高清视频
观看高清视频
视频下载器
自动并行论文分享:Merak
论文分享:自动并行AlpaServe
自动并行论文分享:FlexFlow
自动并行—并行划分
自动并行论文分享:CoCoNet
论文分享:自动并行AvgPipe
数据并行通信优化论文分享:MG-WFBP
动态shape深度学习算子自动调优论文分享:DietCode
论文分享:并行程序自动转换
论文分享:计算密集型算子融合Chimera
TVM自动调度算法AutoTVM
HIP代码自动生成工具C2HIPC
无数据模型量化论文分享:ZeroQ
论文分享:高性能计算领域大语言模型HPC-Coder
论文分享:计算图优化Welder
基于MLIR的GPU代码生成论文分享
深度学习模型压缩方法(一):模型蒸馏
深度学习自动微分(一):什么是自动微分
算子调度优化论文分享:Rammer
OpenAI o1大模型炸了,数学逻辑推导能力堪比博士! #大模型 #OpenAI
自编教材分享:第七章—数据级并行(一)
动态shape深度学习编译器论文分享:DISC
自编教材分享:第七章—指令级并行(二)
LLVM编译器入门(三):IR优化
论文分享:动态控制流编译优化Cocktailer
我愿称之为【AI大模型】系统入门天花板教程,适合人工智能专业的LLM主流大模型分享,研究生宝藏课程!!!(文心一言/百度千帆/讯飞星火大模型)
自编教材分享:第九章—流水并行优化
深度学习框架发展(二)
自编教材分享:第一章—程序性能优化的意义(一)
研究生正确读文献技巧分享,读研三年完全够用(20min实操演示)
自编教材分享:第七章—数据级并行(二)
深度学习模型压缩方法(二):剪枝
深度神经网络的结构
TVM简介
CNN-卷积神经网络(一)
强化学习论文分享20240808
CV强化论文分享-20240829-2
LLVM编译器入门(二):Clang前端
2024最好出创新点的方向:【对比学习+多模态】CLIP模型、Dalle2、多模态3D目标检测、MedCLIP医学图像文本,计算机博士带你轻松搞定论文创新点!
深度学习模型压缩概述