自编教材分享：第十章—CUDA程序优化（四）

发布人

近年来，大数据、深度学习等相关领域对计算能力的需求不断增长，而计算统一设备架构CUDA（Compute Unified Device Architecture）的出现使得人们能够充分利用图形处理单元GPU的硬件优势处理大规模的密集计算型任务。CUDA使用了类C语言的语法，使得面向GPU的程序开发较为便捷，但对于复杂的并行计算任务，提升CUDA程序的性能仍是优化人员需要关注的重点。本章的系列视频首先对CUDA编程的基础概念和CUDA程序的编写方法进行了简要介绍，然后结合矩阵乘等程序，阐述合理构建线程结构、消除程序分歧、充分利用多层次存储结构、构建数据预取和实施循环展开等CUDA程序优化方法。
数据预取是指提前加载计算将要用到的数据，减少因为访存而带来的延迟，循环展开是指通过减少分支的频率以及循环维护指令来实现程序的优化。本次视频分享的内容为CUDA程序的数据预取和循环展开优化，并对本章CUDA程序优化的系列分享进行总结。

打开封面下载高清视频观看高清视频视频下载器

自编教材分享：第十章—CUDA程序优化（四）

自编教材分享：第十章—CUDA程序优化（三）

自编教材分享：第十章—CUDA程序优化（一）

自编教材实操课程分享：第十章—CUDA程序编写

自编教材分享：第十章—CUDA程序优化（二）

自编教材分享：第五章—编译与运行优化

循环优化（一）：循环展开和压紧

自编教材分享：第六章—程序编写优化（一）

自编教材实操课程分享：第六章—循环展开和压紧

自编教材实操课程分享：第十章—分支优化

自编教材分享：第一章—程序性能优化的意义（一）

自编教材分享：第六章—程序编写优化（四）

自编教材分享：第六章—程序编写优化（二）

算子调度优化论文分享：Rammer

自编教材实操课程分享：第十章—线程结构优化

自编教材实操课程分享：第五章—数学库优化

自编教材分享：第二章—程序性能的度量指标及优化流程（一）

自编教材分享：第九章—流水并行优化

自编教材实操课程分享：第十章—访存优化(1)

循环优化（二）：循环合并

自编教材分享：第十一章—MPI程序简介（二）

自编教材实操课程分享：第六章—算法优化

自编教材分享：第十一章—MPI程序简介

自编教材实操课程分享：第五章—过程间优化

自编教材分享：第九章—OpenMP编程简介

自编教材实操课程分享：第五章—编译器前端

自编教材实操课程分享：第五章—浮点优化

自编教材分享：第八章—访存优化（一）

自编教材分享：第八章—访存优化（三）

自编教材分享：第一章—程序性能优化的意义（二）

LLVM编译器入门（一）：LLVM整体设计

自编教材分享：第九章—负载均衡优化

自编教材分享：第十一章—数据划分优化

自编教材分享：第四章—系统配置优化（一）

自编教材实操课程分享：第六章—传参优化

自编教材分享：第七章—指令级并行（一）

自编教材分享：第三章—程序性能的分析和测量（一）

自编教材分享：第八章—访存优化（六）

自编教材实操课程分享：第五章—循环展开

自编教材实操课程分享：第九章—OpenMP程序编写

自编教材分享：第八章—访存优化（二）