V
主页
FlashAttention: 更快训练更长上下文的GPT【论文粗读·6】
发布人
合集文档:https://bytedance.feishu.cn/docx/doxcn3zm448MK9sK6pHuPsqtH8f FlashAttention:https://readpaper.feishu.cn/docx/AC7JdtLrhoKpgxxSRM8cfUounsh GitHub CodeRepo:https://github.com/cauyxy/bilivideos/tree/master/flash-attn 更多信息:https://yxinyu.com/
打开封面
下载高清视频
观看高清视频
视频下载器
Flash Attention 为什么那么快?原理讲解
⏱️78s看懂FlashAttention【有点意思·1】
Flash Attention原理!数据布局转换与内存优化!【推理引擎】离线优化第04篇
论文分享:新型注意力算法FlashAttention
Transformer论文逐段精读【论文精读】
超强动画,一步一步深入浅出解释Transformer原理!
Zero 论文精读【论文精读】
[QKV attention] flash attention(Tiling与重计算),operation fused,HBM vs. SRAM
PagedAttention(vLLM):更快地推理你的GPT【论文粗读·7】
GPU Arch:自顶向下分析【浅谈底层·1】
GPTQ&OBC:量化你的GPT【论文粗读·4】
看了这个视频你才能真正搞懂FlashAttention, S4和Mamba
vLLM源码阅读s1——源码介绍
AttnVisual: 深入理解你的GPT【有点意思·3】
LoRA:训练你的GPT【论文粗读·1】
AdaLoRA:更强大的LoRA升级版【论文粗读·2】
OBD&OBS:给神经网络做个外科手术【论文粗读·3】
flashattention原理深入分析
通义千问-大模型vLLM推理与原理
论文分享:从Online Softmax到FlashAttention-2
QLoRA:训练更大的GPT【论文粗读·5】
FlashAttention 加速原理介绍
vLLm: 大模型LLM快速推理的神器, llama2秒级完成推理不用再等待
自动并行—并行划分
ICLR盲审阶段就被评审赞不绝口的论文:会是Transformer架构的一大创新吗?
LLM在生产环境部署优化(2/3)FlashAttention
LLM-Attack: 撬开GPT阁下的嘴【论文粗读·8】
更懂西游记的大模型【有点意思·2】
CUDA MODE Lecture 12: Flash Attention
VLLM ——高效GPU训练框架
Flash attention论文解读
[手写flash attention v1 & v2] baseline的基础实现
FlashAttention - Tri Dao _ Stanford MLSys #67
大模型上下文扩展技术原理
Transformer从零详细解读(可能是你见过最通俗易懂的讲解)
TinyLlama:开源小型语言模型的新突破
斯坦福博士开源新算法FlashAttention2 让Transformer模型推理和训练成本再削50%
最强长上下文Text Embedding 开源模型M2-BERT