V
主页
[QKV attention] kv-cache、decoder only vs. BERT, 单向注意力 vs. 双向注意力
发布人
本期 code:https://github.com/chunhuizhang/pytorch_distribute_tutorials/blob/main/tutorials/kv-cache.ipynb llama2 kvcache:BV1FB4y1Z79y,BV1Ea4y1d7wx 之前发过的token连接方式的动态:https://www.bilibili.com/opus/942536178060492803
打开封面
下载高清视频
观看高清视频
视频下载器
怎么加快大模型推理?10分钟学懂VLLM内部原理,KV Cache,PageAttention
LLM面试_为什么常用Decoder Only结构
注意力机制的本质|Self-Attention|Transformer|QKV矩阵
kvCache原理及代码介绍---以LLaMa2为例
LLM面试_padding side
LLM面试_模型参数量计算
[LLMs 实践] 20 llama2 源码分析 cache KV(keys、values cache)加速推理
[动手写bert系列] 01 huggingface tokenizer (vocab,encode,decode)原理及细节
The KV Cache: Memory Usage in Transformers
从编解码和词嵌入开始,一步一步理解Transformer,注意力机制(Attention)的本质是卷积神经网络(CNN)
主流开源大模型LLama基本架构 KV-Cache, Rotary Positional Embedding, RMS Norm, Grouped Query
【研1基本功 (真的很简单)Decoder Encoder】手写Decoder Layer 准备召唤Transformer
Llama 2 模型结构解析
【复现】transformer推理速度优化-kvcache技术
KV缓存:Transformer中的内存使用!
自制大模型推理框架-KVCache动手实现-秋招快人一步
[pytorch distributed] 05 张量并行(tensor parallel),分块矩阵的角度,作用在 FFN 以及 Attention 上
[LLMs 实践] 01 llama、alpaca、vicuna 整体介绍及 llama 推理过程
[QKV attention] flash attention(Tiling与重计算),operation fused,HBM vs. SRAM
[LLMs 实践] 02 LoRA(Low Rank Adaption)基本原理与基本概念,fine-tune 大语言模型
[pytorch distributed] 02 DDP 基本概念(Ring AllReduce,node,world,rank,参数服务器)
75、Llama源码讲解之RoPE旋转位置编码
[DRL] 从 TRPO 到 PPO(PPO-penalty,PPO-clip)
【官方双语】ChatGPT背后是什么模型和原理?详细阐述decoder-only transformer模型!
[personal chatgpt] LLAMA 3 整体介绍(与 LLama 2 的不同?)
[AI Agent] llama_index RAG 原理及源码分析
【双语·YouTube搬运·生成语言模型中的KV缓存】The KV Cache: Memory Usage in Transformers
[pytorch distributed] 01 nn.DataParallel 数据并行初步
姚顺雨-从语言模型到语言智能体(From Language Models to Language Agents)
[pytorch 强化学习] 01 认识环境(environment,gym.Env)以及 CartPole-v0/v1 环境
[personal chatgpt] 从 RoPE 到 CoPE(绝对位置编码,相对位置编码,Contextual Position Encoding)
【研1基本功 (真的很简单)Group Query-Attention】大模型训练必备方法——bonus(位置编码讲解)
[personal chatgpt] gpt-4o tokenizer 及特殊中文tokens(压缩词表),o200k_base
[RLHF] 从 PPO rlhf 到 DPO,公式推导与原理分析
[personal chatgpt] trl rlhf PPOTrainer,原理分析与代码走读(OpenRLHF framework)
[pytorch distributed] nccl 集合通信(collective communication)
【官方双语】直观解释注意力机制,Transformer的核心 | 【深度学习第6章】
姚顺雨-语言智能体博士答辩 Language Agents: From Next-Token Prediction to Digital Automation
[pytorch distributed] deepspeed 基本概念、原理(os+g+p)
[纳什荐书][生成式AI] 01 《GPT图解》导读