V
主页
京东 11.11 红包
计算图优化论文分享:Welder
发布人
本次视频分享的是一篇关于计算图优化的论文Welder,论文是发表在操作系统领域的顶级会议OSDI2023,论文对应的工作是微软亚洲研究院推出的AI编译器界工业重金属四部曲之一,其他三部曲分别为Rammer(通过实现跨算子调度来提升硬件的并行性)、Roller(根据内存特性对张量进行数据的划分来生成高性能的Kernel)、CockTailer(协同调度数据流和控制流来让控制流在加速器上高效执行)。 Welder对应的工作是通过全面优化由通用算子组成的端到端DNN模型的内存访问效率。DNN 模型可以看作是由多个算子连成的一张图,整个计算过程涉及多个阶段,即数据需要流过不同的算子,在每个阶段都需要将张量切分成块,先搬运到处理器上进行计算,然后再搬运回内存,这就会造成很大的搬运开销。而Welder通过链接不同的算子,可以让数据块以流水线的方式处理,大大降低了访存量,在近几年人工智能模型对访存效率要求越来越高的情况下,可以大幅提升计算效率。
打开封面
下载高清视频
观看高清视频
视频下载器
Astitch:机器学习访存密集计算编译优化框架
算子调度优化论文分享:Rammer
论文分享:新型注意力算法FlashAttention
动态shape深度学习算子自动调优论文分享:DietCode
自动并行论文分享:FlexFlow
论文分享:计算密集型算子融合Chimera
循环优化(一):循环展开和压紧
论文分享:高性能计算领域大语言模型HPC-Coder
图算融合论文分享:Apollo
论文分享:动态神经网络编译优化BrainStorm
循环优化(六):循环分段
无数据模型量化论文分享:ZeroQ
自编教材分享:第八章—访存优化(一)
自动并行论文分享:Merak
TVM自动调度算法AutoTVM
动态shape深度学习编译器论文分享:DISC
论文分享:自动并行Alpa
自动并行论文分享:CoCoNet
自编教材分享:第八章—访存优化(二)
循环优化(九):循环倾斜
论文分享:动态控制流编译优化Cocktailer
循环优化(七):循环分块
数据并行通信优化论文分享:MG-WFBP
ANSOR优化算子代码解读(二)
深度学习模型压缩方法(二):剪枝
循环优化(二):循环合并
自编教材分享:第九章—流水并行优化
基于MLIR的GPU代码生成论文分享
LLVM编译器入门(三):IR优化
深度学习框架发展(二)
自编教材分享:第五章—编译与运行优化
自编教材分享:第十章—CUDA程序优化(一)
ANSOR优化算子代码解读(三)
循环优化(八):循环分裂
深度学习框架发展(一)
自编教材分享:第二章—程序性能的度量指标及优化流程(一)
自编教材分享:第一章—程序性能优化的意义(二)
HIP代码自动生成工具C2HIPC
自编教材分享:第十一章—数据划分优化
深度学习硬件平台