V
主页
论文分享:动态控制流编译优化Cocktailer
发布人
本次视频分享的是一篇关于动态控制流编译优化的论文Cocktailer,论文是发表在操作系统领域公认的顶级会议OSDI 2023,文章的第一作者张晨来自清华大学,她与北京大学以及微软亚洲研究院团队共同完成了论文的工作。论文CockTailer对应的项目名称为Grinder,是微软亚洲研究院推出的AI编译器界工业重金属四部曲之一,其他三部曲分别为Rammer(通过实现跨算子调度来提升硬件的并行性)、Roller(根据内存特性对张量进行数据的划分来生成高性能的Kernel)、Welder(通过以流水线的方式去处理数据块来降低访存量)。 本次介绍的论文CockTailer对应的工作是通过协同调度数据流和控制流来让控制流也能在加速器上进行高效地执行。
打开封面
下载高清视频
观看高清视频
视频下载器
论文分享:动态神经网络编译优化BrainStorm
论文分享:计算图优化Welder
动态shape深度学习算子自动调优论文分享:DietCode
动态shape深度学习编译器论文分享:DISC
算子调度优化论文分享:Rammer
数据并行通信优化论文分享:MG-WFBP
无数据模型量化论文分享:ZeroQ
自动并行论文分享:CoCoNet
论文分享:自动并行Alpa
Astitch:机器学习访存密集计算编译优化框架
基于MLIR的GPU代码生成论文分享
TVM 编译流程与中间表示分析(二)
HIP代码自动生成工具C2HIPC
自动并行论文分享:Merak
论文分享:自动并行AvgPipe
ANSOR 优化算子代码解读(一)
OpenAI triton分享:triton调试方法及工具(上)
OpenAI triton分享:triton编译流程
自编教材分享:第五章—编译与运行优化
自编教材分享:第十章—CUDA程序优化(四)
论文分享:新型注意力算法FlashAttention
自编教材分享:第八章—访存优化(二)
自编教材分享:第八章—访存优化(三)
ANSOR:为深度学习生成高性能张量程序
深度学习框架发展(二)
循环优化(一):循环展开和压紧
自编教材分享:第十章—CUDA程序优化(三)
TVM的量化框架(四)
自编教材分享:第六章—程序编写优化(一)
自编教材分享:第十章—CUDA程序优化(二)
自编教材分享:第四章—系统配置优化(一)
论文分享:高性能计算领域大语言模型HPC-Coder
深度学习编译接口FreeTensor
自编教材分享:第十一章—数据划分优化
自编教材分享:第二章—程序性能的度量指标及优化流程(一)
论文分享:计算密集型算子融合Chimera
循环优化(七):循环分块
论文分享:自动并行AlpaServe
自编教材分享:第十章—CUDA程序优化(一)
TVM 编译流程与中间表示分析(一)