V
主页
自编教材分享:第十一章—数据划分优化
发布人
MPI框架只提供任务之间同步和通信的手段,其中计算任务的分解、数据的划分计算的实现等方式以及聚合方式都由程序的开发者决定。数据划分通常针对MPI程序中规模较大的数据进行划分将分解后的数据块聚集或映射到多个处理器上,实现在多个进程上同时执行以加速程序的快速运行。在保证结果正确的前提下,要是数据划分后程序的性能较好就需要尽可能的做到附带均衡。本节我们将继续以矩阵乘法为例通过使用数据划分的优化方法让不同进程对矩阵a和矩阵b的某个分块进行乘加运算,计算得到结果矩阵c的部分结果。
打开封面
下载高清视频
观看高清视频
视频下载器
自编教材分享:第十一章—MPI程序简介
自编教材分享:第十章—CUDA程序优化(一)
自编教材分享:第九章—负载均衡优化
自编教材分享:第十一章—MPI程序简介(二)
自编教材分享:第八章—访存优化(一)
自编教材实操课程分享:第九章—数据填充避免伪共享
自编教材分享:第五章—编译与运行优化
自编教材分享:第九章—OpenMP编程简介
自编教材分享:第四章—系统配置优化(一)
自编教材分享:第七章—数据级并行(一)
自编教材分享:第六章—程序编写优化(一)
自编教材分享:第九章—避免隐式同步
自编教材分享:第三章—程序性能的分析和测量(一)
自编教材分享:第十章—CUDA程序优化(二)
自编教材分享:第八章—访存优化(三)
自编教材分享:第十章—CUDA程序优化(四)
数据并行通信优化论文分享:MG-WFBP
自编教材分享:第九章—流水并行优化
自编教材分享:第七章—数据级并行(二)
自编教材分享:第二章—程序性能的度量指标及优化流程(一)
自编教材实操课程分享:第五章—编译器中端
自编教材分享:第七章—数据级并行(三)
自编教材分享:第十章—CUDA程序优化(三)
自编教材分享:第三章—程序性能的分析和测量(三)
自编教材分享:第三章—程序性能的分析和测量(二)
自编教材分享:第一章—程序性能优化的意义(二)
论文分享:计算图优化Welder
自编教材分享:第八章—访存优化(六)
自编教材分享:第八章—访存优化(四)
自编教材实操课程分享:第八章—结构属性域调整
自编教材实操课程分享:第五章—数据预取优化
自编教材分享:第六章—程序编写优化(四)
自编教材实操课程分享:第八章—数组重组
自编教材分享:第八章—访存优化(二)
自编教材实操课程分享:第六章—算法优化
深度学习框架发展(一)
自编教材实操课程分享:第五章—浮点优化
自编教材实操课程分享:第六章—传参优化
深度学习框架发展(二)
ANSOR 优化算子代码解读(一)