V
主页
论文分享:并行程序自动转换
发布人
本论文基于Polygeist/MLIR实现了将并行程序自动转换为CPU程序的方法,主要是由CUDA程序转换为OpenMP程序。实现了一种SIMT风格的通用高级并行结构与平台无关的表示形式,一些新的特定于并行的优化,以及对Polygeist C/C++ MLIR前端的扩展,能够直接将GPU和CPU并行结构映射到其高级并行原语。解决了具有高带宽内存的 CPU 缺失高效内核的限制的问题。
打开封面
下载高清视频
观看高清视频
视频下载器
动态shape深度学习算子自动调优论文分享:DietCode
自动并行论文分享:Merak
TVM自动调度算法AutoTVM
自动并行论文分享:FlexFlow
动态shape深度学习编译器论文分享:DISC
论文分享:自动并行AlpaServe
人工智能编译器MLIR-官方入门教程讲解
数据并行通信优化论文分享:MG-WFBP
自编教材分享:第十章—CUDA程序优化(三)
自动并行论文分享:CoCoNet
HIP代码自动生成工具C2HIPC
TVM简介
自编教材分享:第七章—指令级并行(二)
论文分享:动态神经网络编译优化BrainStorm
深度学习自动微分(一):什么是自动微分
LLVM编译器入门(四):代码生成 上
自编教材实操课程分享:第六章—分支语句优化之移除分支语句
深度学习框架发展(二)
OpenAI triton分享:Triton安装教程
自编教材实操课程分享:第五章—编译器中端
循环优化(二):循环合并
自编教材实操课程分享:第五章—数学库优化
循环优化(三):循环分布
自编教材实操课程分享:第五章—编译选项
自编教材分享:第七章—数据级并行(一)
循环优化(一):循环展开和压紧
深度学习框架发展(一)
LLVM编译器入门(一):LLVM整体设计
自编教材分享:第三章—程序性能的分析和测量(二)
深度学习硬件平台
CNN-卷积神经网络(二)
自编教材实操课程分享:第六章—分支语句优化之运用条件编译
自编教材实操课程分享:第六章—删除冗余语句
自编教材分享:第二章—程序性能的度量指标及优化流程(一)
自编教材实操课程分享:第五章—运行时优化
自编教材分享:第一章—程序性能优化的意义(二)
自编教材实操课程分享:第五章—数据预取优化
自编教材实操课程分享:第五章—编译器后端
OpenAI triton分享:Triton概述
自编教材分享:第六章—程序编写优化(三)