V
主页
RNN卷土重来:基于门控记忆槽的线性注意力机制
发布人
主题 RNN卷土重来:基于门控记忆槽的线性注意力机制 嘉宾 张宇目前是苏州大学人工智能实验室的三年级博士生,指导老师是付国宏教授。在此之前,他于2021年在苏州大学获得了硕士学位。 他的主要研究方向主要集中于开发更高效的语言生成模型,特别是针对硬件优化、线性复杂度的序列建模方法。他致力于发掘并利用并行计算的潜力,以构建可扩展的次平方级模型。目前已在ACL/EMNLP等NLP会议上发表多篇论文,是句法分析SuPar和线性注意力FLA等库的主要贡献者和维护者。 主持人 章岳 字节跳动研究员 内容 1. 背景 - 基于标准注意力机制的大语言模型 - 线性化方法 2. 门控记忆槽注意力机制 - KV memory视角下的attention及其线性化 - 数据依赖的门控机制 - 并行化方法 - 参数化 3. 实验 - 基准评测结果 - GSA的Recall能力和隐状态容量分析 - 继续训练的优势 4. FLA 5. 总结与展望 6. QA 引言 当前的大语言模型(LLM)在使用标准注意力机制时,面临着训练复杂度呈二次增长以及推理阶段管理键值(KV)缓存内存密集型的挑战。线性注意力作为一种有前景的替代方案,通过固定容量的隐藏状态取代了无界限的KV存储,从而缓解了这一问题。 然而,现有的线性注意力实现往往在性能上不及类似Llama架构(如Transformer++)的效率。 本次talk介绍了一种基于门控槽注意力(Gated Slot Attention,简称GSA)的方法,该方法融合了标准注意力的原理与数据依赖的门控线性注意力,实现了序列建模的线性化。通过更优的内存管理,采用GSA训练的LLM相较于以往的线性注意力设计应当展现出更好的性能。 更重要的是,GSA能够在现代硬件上实现高效并行化,这使得大规模实验成为可能。通过从头训练13亿和27亿参数的模型,GSA在一系列基准测试上表现出了很强的竞争力。此外,GSA与其他线性注意力变体相比,与现有的基于标准注意力的LLM有更好的兼容性。
打开封面
下载高清视频
观看高清视频
视频下载器
EMNLP2024分享会之NER、模型微调
脆弱的不确定性:大模型的可信度如何被操控
Transformer的无限之路:位置编码视角下的长度外推
大语言模型编辑中的崩溃研究
LLM推理加速新范式!推测解码(Speculative Decoding)最新综述
【包学包会】不需要高配置!6分钟教会你使用Ollama在本机运行部署llama3.1 || 大模型本地部署、LLM、
【全126集】目前B站最系统的Transformer教程!入门到进阶,全程干货讲解!拿走不谢!(神经网络/NLP/注意力机制/大模型/GPT/RNN)
【NICE一期】周厚全:大模型会句法吗?
EMNLP2024分享会之模型对齐主题
大语言模型的时间魔法:从共时推理到框架优化
知识斗地主:解析RAG大模型中复杂的知识冲突
生成式搜索引擎能否取代检索技术?
Transformer模型能否进行隐式的推理?一个关于Grokking和泛化的深入探索
GNN+时间序列预测,新SOTA效率翻倍!迪哥精讲图注意力机制与序列图模型 轻松发文的好思路!
【NICE二期】姚杳:从CoT到Agent的列车即将发车,请各位旅客尽快上车
多头注意力(Multi-Head Attention)
终于找到最系统的时间序列模型教程了,LSTM时间序列任务项目实战,从入门到精通-让数据预测变得简单!(附课件+源码)
顶会顶刊=注意力机制+可变形卷积?且提速80%!附11种前沿改进思路+源码
EMNLP2024分享会之可解释性、资源与评估
【NICE一期】吴胜琼:NExT-GPT:全能多模态大语言模型
四种方法免费使用ChatGPT-4o 和Claude 3.5 Sonnet的方法,本人亲测有效 | 黄思平
“显微镜”下的RAG:通过 RAGChecker 进行细粒度诊断评估
在上下文学习中,语言模型究竟学到了什么? 探索结构化任务假说
【Coze教程】这可能是全网最系统的Coze入门教程了!手把手教你用Coze手搓Agent智能体到搭建Coze工作流,入门到精通!
即插即用双重交叉注意力机制DCA,涨点起飞
冒死上传!目前B站最完整的大模型微调教程,适应于所有大模型微调实战!微调|量化|部署|应用
EMNLP2024分享会之模型编辑主题
微软+罗格斯大学提出:使用交互式推测解码赋能Agent,将智能体规划速度提高一倍!
【自学AI Agent】绝对是我在B站见过最全的Agent智能体行业落地应用实战教程!MOE模型、LORA、RAG
深度学习缝了别人的模块,创新点如何描述?附魔改注意力机制+多尺度特征融合模块源码
即插即用-2024ICLR 自适应多尺度时序注意力机制模块!可拥有时序预测,异常检测!
大语言模型在text-based game上的表现及分析
大模型事实性综述
【零基础学AI】清华大佬200集讲完的AI人工智能从入门到精通全套教程,全程干货无废话!看完绝对让你少走弯路!研一研零必看!机器学习-深度学习-opencv
迈向可信的AI:探索安全、负责的大语言模型
2024年最新【西瓜书】机器学习解读!原理讲解+手推公式,原著大佬周志华带你把西瓜书吃透!真的通俗易懂!(人工智能、深度学习、机器学习算法、神经网络)
从0开始训练1.4b中文大模型的经验分享
ChatGPT4.0国内如何免费使用!免翻,无任何限制,官方版GPT4o体验分享,教程来了 !
30分钟学会Qwen2.5-3B本地部署LightRAG,完胜GraphRAG!从模型部署到源码解读,带你全流程解析,速度快,效果好,落地部署更方便!!!
超强动画演示,手把手深入浅出讲解大模型是如何训练模型的?!太通俗易懂了,草履虫都能轻松学会!深度学习|大模型|注意力机制|计算机视觉|自然语言处理