V
主页
论文分享:动态神经网络编译优化BrainStorm
发布人
伴随着摩尔定律的失效,硬件算力越来越难以满足与模型大小同步快速增加的算力需求。动态神经网络在处理不同的样本时,动态地激活模型的不同部分。在计算时,动态神经网络将输入的不同部分 分发给模型中的不同子网络,每个子网络只激活模型中的部分结构或者只处理样本的一部分,降低模型的计算量,从而缓解模型对算力的需求。 本次论文分享一篇优化动态神经网络的论文。针对现有深度学习框架大多关注静态神经网络的优化,无法有效的表示子张量和追踪动态数据流的问题,论文提出了Cell与Router两个新的编程抽象。借鉴JIT的思想,BrainStorm将追踪到的动态数据流信息存到profile文件中,并制定了四种优化策略。四种优化策略会根据profile文件中不同信息做出优化。 论文评估了brainstorm在六种不同类型的动态神经网络上的端到端上性能。Brainstorm 实现了平均 3.29 倍、最高11.7 倍的加速或减少了 42% 的 GPU 内存使用量。
打开封面
下载高清视频
观看高清视频
视频下载器
真的超容易“搞深度学习神经网络到底怎么改代码的啊?”复旦博士教我用一本书搞定!
深度神经网络的结构
算子调度优化论文分享:Rammer
CNN-卷积神经网络(一)
动态shape深度学习算子自动调优论文分享:DietCode
LLVM编译器入门(一):LLVM整体设计
CNN-卷积神经网络(二)
神经网络原来就是素描?
论文分享:新型注意力算法FlashAttention
论文分享:动态控制流编译优化Cocktailer
基于MLIR的GPU代码生成论文分享
循环优化(一):循环展开和压紧
这是我迄今为止见过将 Chat GPT 原理最好的可视化。具象化的展示了Transformer神经网络模型结构。像在四维看三维。
神经网络的运行机制
自动并行论文分享:Merak
自动并行论文分享:FlexFlow
图算融合论文分享:Apollo
论文分享:计算密集型算子融合Chimera
循环优化(三):循环分布
自编教材分享:第十章—CUDA程序优化(一)
论文分享:高性能计算领域大语言模型HPC-Coder
GNN+Transformer到底有多强?迪哥精讲迪哥精讲图神经网络融合transformer,绝对是今年的研究热点!
循环优化(四):循环交换
数据并行通信优化论文分享:MG-WFBP
神经网络必看!如何从零入门CNN、RNN、GAN、GNN、DQN、Transformer、LSTM等!清华大佬一天就教会了我如何入门神经网络算法,绝对通俗易懂
无数据模型量化论文分享:ZeroQ
OpenAI triton分享:Triton概述
自编教材分享:第八章—访存优化(一)
自编教材实操课程分享:第六章—算法优化
自编教材分享:第六章—程序编写优化(一)
深度学习模型压缩方法(二):剪枝
(SCI论文必看)(加入多种多目标优化算法和帕累托前沿解)基于五种2024最新智能算法优化BP神经网络的多目标参数寻优(多目标海鸥鲸鱼遗传灰狼鱼鹰蜣螂等)
自编教材实操课程分享:第五章—数据预取优化
能有多牛被300多万人浏览的我问题”对于神经网络,硕士博士不需要弄明白原理,只需要应用,是这样吗?“
HIP代码自动生成工具C2HIPC
自编教材分享:第九章—OpenMP编程简介
自编教材分享:第八章—访存优化(三)
自编教材分享:第十章—CUDA程序优化(三)
ANSOR优化算子代码解读(二)
篡改猴更新后无法使用?打开这个设置直接升天↑