论文分享：并行程序自动转换 - 视频下载 Video Downloader

论文分享：并行程序自动转换

发布人

本论文基于Polygeist/MLIR实现了将并行程序自动转换为CPU程序的方法，主要是由CUDA程序转换为OpenMP程序。实现了一种SIMT风格的通用高级并行结构与平台无关的表示形式，一些新的特定于并行的优化，以及对Polygeist C/C++ MLIR前端的扩展，能够直接将GPU和CPU并行结构映射到其高级并行原语。解决了具有高带宽内存的 CPU 缺失高效内核的限制的问题。

打开封面下载高清视频观看高清视频视频下载器

动态shape深度学习算子自动调优论文分享：DietCode

自动并行论文分享：Merak

TVM自动调度算法AutoTVM

自动并行论文分享：FlexFlow

动态shape深度学习编译器论文分享：DISC

论文分享：自动并行AlpaServe

人工智能编译器MLIR-官方入门教程讲解

数据并行通信优化论文分享：MG-WFBP

自编教材分享：第十章—CUDA程序优化（三）

自动并行论文分享：CoCoNet

HIP代码自动生成工具C2HIPC

TVM简介

自编教材分享：第七章—指令级并行（二）

论文分享：动态神经网络编译优化BrainStorm

深度学习自动微分（一）：什么是自动微分

LLVM编译器入门（四）：代码生成上

自编教材实操课程分享：第六章—分支语句优化之移除分支语句

深度学习框架发展（二）

OpenAI triton分享：Triton安装教程

自编教材实操课程分享：第五章—编译器中端

循环优化（二）：循环合并

自编教材实操课程分享：第五章—数学库优化

循环优化（三）：循环分布

自编教材实操课程分享：第五章—编译选项

自编教材分享：第七章—数据级并行（一）

循环优化（一）：循环展开和压紧

深度学习框架发展（一）

LLVM编译器入门（一）：LLVM整体设计

自编教材分享：第三章—程序性能的分析和测量（二）

深度学习硬件平台

CNN-卷积神经网络（二）

自编教材实操课程分享：第六章—分支语句优化之运用条件编译

自编教材实操课程分享：第六章—删除冗余语句

自编教材分享：第二章—程序性能的度量指标及优化流程（一）

自编教材实操课程分享：第五章—运行时优化

自编教材分享：第一章—程序性能优化的意义（二）

自编教材实操课程分享：第五章—数据预取优化

自编教材实操课程分享：第五章—编译器后端

OpenAI triton分享：Triton概述

自编教材分享：第六章—程序编写优化（三）