V
主页
77、Llama源码讲解之GroupQueryAttention和KV-cache
发布人
各位朋友大家晚上好,这期视频给大家继续讲解 Llama2/Llama3 推理源码之 Group Query Attention 以及 KV-cache 部分的 PyTorch 实现。这两个是有效实现Llama推理加速的基础。如果大家觉得有帮助,欢迎点赞投币收藏一键转发,激励 UP 主更多优质代码讲解作品。
打开封面
下载高清视频
观看高清视频
视频下载器
73、爆火必看的nano-GPT2 Pytorch经典代码逐行讲解
B站强推!这可能是唯一能将LLama大模型讲清楚的教程了,LLama系列复现-微调-预训练-应用实例解读,草履虫都能看懂!人工智能/多模态大模型
75、Llama源码讲解之RoPE旋转位置编码
Llama 3.1论文精读 · 1. 导言【论文精读·54】
78、Llama源码讲解之Transformer
从0用Numpy搭建可训练LLaMa3模型——山东大学威海数科班重案六组第六学期大作业
71、VQGAN模型+VQ离散化模块的代码讲解
从传统RAG到GraphRAG
[QKV attention] flash attention(Tiling与重计算),operation fused,HBM vs. SRAM
1、PyTorch介绍与张量的创建
Llama3模型,从零构件复现,使用RLHF方法训练.代码实战.
[QKV attention] kv-cache、decoder only vs. BERT, 单向注意力 vs. 双向注意力
79、Llama源码讲解之自回归采样生成算法
74、GPT-3论文原理讲解
80、Byte Pair Encoding 源码逐行讲解
81、LLaMA-1 论文导读
InternLM 2.5 开源啦,InternLM2.5-7B-Chat登顶Hugging Face OpenLLM Leaderboard 12B以下榜首!
47、GAN原理讲解与PyTorch手写逐行讲解
SIMIS暑期研讨会:浅谈大模型与多模态
[pytorch distributed] 从 DDP、模型并行、流水线并行到 FSDP(NCCL,deepspeed 与 Accelerate)
[LLMs 实践] 20 llama2 源码分析 cache KV(keys、values cache)加速推理
76、Llama源码讲解之RMS-Norm
72、爆火的GPT-2论文讲解
19、Transformer模型Encoder原理精讲及其PyTorch逐行实现
64、扩散模型加速采样算法DDIM论文精讲与PyTorch源码逐行解读
4、PyTorch的Dataset与DataLoader详细使用教程
2、PyTorch张量的运算API(上)
62、Score Diffusion Model分数扩散模型理论与完整PyTorch代码详细解读
动画理解Pytorch 大模型分布式训练技术 DP,DDP,DeepSpeed ZeRO技术
怎么加快大模型推理?10分钟学懂VLLM内部原理,KV Cache,PageAttention
54、Probabilistic Diffusion Model概率扩散模型理论与完整PyTorch代码详细解读
超强动画,深入浅出解释Transformer原理!这可能是我看到唯一一个用动画讲解Transformer原理的教程!真的通俗易懂!——(人工智能、神经网络)
NVIDIA AI 加速精讲堂-TensorRT-LLM量化原理、实现与优化
66、Classifier Guided Diffusion条件扩散模型论文与PyTorch代码详细解读
18、深入剖析PyTorch中的Transformer API源码
LLM面试_为什么常用Decoder Only结构
【李宏毅】2024年公认最好的【LLM大模型】教程!大模型入门到进阶,一套全解决!2024生成式人工智慧-附带课件代码
ICML 2024 tutorial: 语言模型物理学
【Proof-Trivial】数学视角下的Transformer【MIT数学系-Philippe Rigollett】
Flash Attention 为什么那么快?原理讲解