V
主页
论文分享:并行程序自动转换
发布人
本论文基于Polygeist/MLIR实现了将并行程序自动转换为CPU程序的方法,主要是由CUDA程序转换为OpenMP程序。实现了一种SIMT风格的通用高级并行结构与平台无关的表示形式,一些新的特定于并行的优化,以及对Polygeist C/C++ MLIR前端的扩展,能够直接将GPU和CPU并行结构映射到其高级并行原语。解决了具有高带宽内存的 CPU 缺失高效内核的限制的问题。
打开封面
下载高清视频
观看高清视频
视频下载器
OpenAI triton分享:Triton概述
自动并行论文分享:FlexFlow
自动并行论文分享:Merak
基于MLIR的GPU代码生成论文分享
自动并行—并行划分
强到离谱!SCI论文发到手软!中科院博士研究生手把手带你亲历SCI论文从撰写到投稿的全过程【SCI论文写作】
LLVM编译器入门(一):LLVM整体设计
TVM简介
论文分享:自动并行AlpaServe
自编教材实操课程分享:第五章—编译器前端
深度学习自动微分(一):什么是自动微分
循环优化(二):循环合并
循环优化(一):循环展开和压紧
自编教材实操课程分享:第五章—编译器后端
LLVM编译器入门(三):IR优化
自编教材实操课程分享:第五章—编译器中端
数据并行通信优化论文分享:MG-WFBP
自编教材实操课程分享:第六章—分支语句优化之移除分支语句
自编教材实操课程分享:第五章—运行时优化
自编教材分享:第十章—CUDA程序优化(一)
研究生自学必看!耗时8个月时间整理的公式代码一条龙【MATLAB论文复现】教程,带你轻松复刻MATLAB论文从公式到代码完整流程!
自编教材实操课程分享:第五章—循环剥离
LLVM编译器入门(二):Clang前端
自编教材分享:第十一章—MPI程序简介(二)
自编教材分享:第二章—程序性能的度量指标及优化流程(一)
自编教材实操课程分享:第五章—循环分布
自编教材实操课程分享:第六章—删除冗余语句
自编教材实操课程分享:第六章—分支语句优化之运用条件编译
LLVM编译器入门(四):代码生成 上
自编教材实操课程分享:第五章—链接时优化
2024年想入坑程序员请注意:千万别碰这些即将要被计算机行业淘汰的编程语言!(马士兵)
论文分享:新型注意力算法FlashAttention
自编教材实操课程分享:第五章—循环展开
自编教材实操课程分享:第五章—反馈优化
自编教材实操课程分享:第九章—OpenMP程序编写
不愧是中科院大佬!三小时讲完论文写作到发刊全栈!简直不要太爽!(论文阅读/确认选题/文献综述/找创新点/写作技巧/发刊技巧/机器学习/深度学习/科研心得)
图算融合论文分享:Apollo
AI 为什么离不开 GPU?顺序代码 vs. 并行计算!
LLVM编译器入门(五):代码生成 下
自编教材实操课程分享:第五章—编译指示