V
主页
Flash Attention原理!数据布局转换与内存优化!【推理引擎】离线优化第04篇
发布人
【推理引擎】离线优化第04篇:Flash Attention原理!数据布局转换与内存优化! 推理引擎中的计算图优化,更多是基于一系列预先写好的模板,减少转换模块生成的计算图中的冗余计算,比如算子融合、算子替换、算子前移、去除冗余节点等。抛开原理,这次详细打开Flash Attention原理!数据布局转换与内存优化的具体优化Pass。
打开封面
下载高清视频
观看高清视频
视频下载器
⏱️78s看懂FlashAttention【有点意思·1】
注意力机制的本质|Self-Attention|Transformer|QKV矩阵
[手写flash attention v1 & v2] baseline的基础实现
Flash Attention 为什么那么快?原理讲解
论文分享:新型注意力算法FlashAttention
[QKV attention] flash attention(Tiling与重计算),operation fused,HBM vs. SRAM
Attention机制(大白话系列)
算子融合/算子替换/算子前移优化!【推理引擎】离线优化第03篇
常量折叠与冗余节点消除优化!计算图优化Details!【推理引擎】离线优化第02篇
FlashAttention: 更快训练更长上下文的GPT【论文粗读·6】
卷积优化:卷积操作基础原理!【推理引擎】Kernel优化第02篇
计算图优化策略!【推理引擎】离线优化系列第01篇
卷积优化:Im2Col算法和组合优化算法【推理引擎】Kernel优化第03篇
离线转换模块架构与流程!【推理引擎】离线转换系列第01篇
模型序列化和反序列化原理!【推理引擎】离线转换系列第02篇
论文分享:从Online Softmax到FlashAttention-2
FlashAttention 加速原理介绍
推理引擎内存布局方式【推理引擎】Kernel优化第06篇
Transformer轻量化SOTA模型原理!【推理系统】模型小型化第04篇
什么是推理系统?推理有哪些应用?【推理系统】系列01篇
flashattention原理深入分析
CUDA MODE Lecture 12: Flash Attention
Kernel优化架构介绍!【推理引擎】Kernel优化第01篇
flash attention的cuda编程
Flash Attention 2.0 with Tri Dao (author)! _ Discord server talks
1001 Attention 和 Self-Attention 的区别(还不能区分我就真的无能为力了)
知识蒸馏SOTA算法解读!【推理引擎】模型压缩系列第06篇(下)
模型压缩架构和流程介绍!量化/剪枝/蒸馏/二值化4件套!【推理系统】模型压缩第01篇
深入GPU原理:线程和缓存关系【AI芯片】GPU原理01
PagedAttention(vLLM):更快地推理你的GPT【论文粗读·7】
AI编译器内存优化算法!动态内存和静态内存区别!【AI编译器】前端优化第05篇
大模型整体架构、大模型全流程介绍 #大模型 #AI系统
编译器和解释器啥区别?AOT和JIT啥区别?Pass和IR又是什么?【AI编译器】系列01篇
ChatGPT狂飙:GPT家族详解!【ChatGPT原理】第01篇
简述flash-attention1
大模型时代下做科研的四个思路【论文精读·52】
PyTorch 2.0新特性开撸!图模式打开了潘多拉!【AI编译器之PyTorch】系列01篇
想了解自动微分吗?自动微分内容介绍!【自动微分】系列第一篇!