计算图优化论文分享：Welder

发布人

本次视频分享的是一篇关于计算图优化的论文Welder，论文是发表在操作系统领域的顶级会议OSDI2023，论文对应的工作是微软亚洲研究院推出的AI编译器界工业重金属四部曲之一，其他三部曲分别为Rammer（通过实现跨算子调度来提升硬件的并行性）、Roller（根据内存特性对张量进行数据的划分来生成高性能的Kernel）、CockTailer（协同调度数据流和控制流来让控制流在加速器上高效执行）。
Welder对应的工作是通过全面优化由通用算子组成的端到端DNN模型的内存访问效率。DNN 模型可以看作是由多个算子连成的一张图，整个计算过程涉及多个阶段，即数据需要流过不同的算子，在每个阶段都需要将张量切分成块，先搬运到处理器上进行计算，然后再搬运回内存，这就会造成很大的搬运开销。而Welder通过链接不同的算子，可以让数据块以流水线的方式处理，大大降低了访存量，在近几年人工智能模型对访存效率要求越来越高的情况下，可以大幅提升计算效率。

打开封面下载高清视频观看高清视频视频下载器

计算图优化论文分享：Welder

Astitch：机器学习访存密集计算编译优化框架

算子调度优化论文分享：Rammer

论文分享：新型注意力算法FlashAttention

动态shape深度学习算子自动调优论文分享：DietCode

自动并行论文分享：FlexFlow

论文分享：计算密集型算子融合Chimera

循环优化（一）：循环展开和压紧

论文分享：高性能计算领域大语言模型HPC-Coder

图算融合论文分享：Apollo

论文分享：动态神经网络编译优化BrainStorm

循环优化（六）：循环分段

无数据模型量化论文分享：ZeroQ

自编教材分享：第八章—访存优化（一）

自动并行论文分享：Merak

TVM自动调度算法AutoTVM

动态shape深度学习编译器论文分享：DISC

论文分享：自动并行Alpa

自动并行论文分享：CoCoNet

自编教材分享：第八章—访存优化（二）

循环优化（九）：循环倾斜

论文分享：动态控制流编译优化Cocktailer

循环优化（七）：循环分块

数据并行通信优化论文分享：MG-WFBP

ANSOR优化算子代码解读（二）

深度学习模型压缩方法（二）：剪枝

循环优化（二）：循环合并

自编教材分享：第九章—流水并行优化

基于MLIR的GPU代码生成论文分享

LLVM编译器入门（三）：IR优化

深度学习框架发展（二）

自编教材分享：第五章—编译与运行优化

自编教材分享：第十章—CUDA程序优化（一）

ANSOR优化算子代码解读（三）

循环优化（八）：循环分裂

深度学习框架发展（一）

自编教材分享：第二章—程序性能的度量指标及优化流程（一）

自编教材分享：第一章—程序性能优化的意义（二）

HIP代码自动生成工具C2HIPC

自编教材分享：第十一章—数据划分优化

深度学习硬件平台