V
主页
自编教材实操课程分享:第九章—串并行切换
发布人
OpenMP中常用parallel for指导语句对程序中的循环结构进行并行优化,但在某些情况下并行优化后程序性能反而不如串行程序。本小节对这种问题出现的原因进行了介绍,并且介绍了采用串并行切换解决此问题的方法。
打开封面
下载高清视频
观看高清视频
视频下载器
自编教材分享:第十章—CUDA程序优化(一)
并行编程入门与实践4
【C++ 并行编程 CoffeeBeforeArch】
自动并行论文分享:Merak
自编教材分享:第九章—负载均衡优化
并行编程入门与实践3
并行编程入门与实践1
自编教材分享:第九章—向量化指导命令
自编教材分享:第九章—并行区重构
自编教材分享:第九章—避免伪共享
自编教材分享:第九章—流水并行优化
自编教材分享:第九章—OpenMP编程简介
论文分享:自动并行Alpa
自编教材分享:第九章—避免隐式同步
自编教材实操课程分享:第五章—编译器前端
OpenAI triton分享:triton源码结构
自编教材实操课程分享:第九章—循环向量化
人工智能编译器MLIR-官方入门教程讲解
深度学习模型压缩方法(一):模型蒸馏
自编教材分享:第一章—程序性能优化的意义(一)
深度学习模型压缩方法(二):剪枝
自编教材分享:第十章—CUDA程序优化(二)
自编教材实操课程分享:第五章—数学库优化
自编教材实操课程分享:第六章—算法优化
深度神经网络的结构
自编教材实操课程分享:第九章—线程调度配置策略
论文分享:新型注意力算法FlashAttention
自编教材实操课程分享:第十章—CUDA程序编写
自编教材分享:第七章—数据级并行(三)
自编教材分享:第四章—系统配置优化(二)
自编教材实操课程分享:第五章—编译器中端
自编教材实操课程分享:第十章—访存优化(1)
自动并行论文分享:FlexFlow
深度学习模型压缩概述
OpenAI triton分享:Triton概述
自编教材实操课程分享:第五章—循环级向量化
自编教材分享:第六章—程序编写优化(三)
自编教材分享:第六章—程序编写优化(二)
论文分享:并行程序自动转换
自编教材实操课程分享:第五章—编译选项