康奈尔大学 The Mamba in the Llama：蒸馏加速混合模型

发布人

论文：https://arxiv.org/pdf/2408.15237
项目主页：https://github.com/jxiw/MambaInLlama
视频出处：https://www.youtube.com/watch?v=A5ff8hu1amM&amp;list=WL&amp;index=2&amp;t=1041s
摘要：线性RNN架构，如Mamba，可以在语言建模中与Transformer模型竞争，同时具有有利的部署特性。鉴于目前重点在于训练大规模Transformer模型，我们将这些预训练模型转换以供部署。我们展示了通过重新使用注意力层中的线性投影权重，将大型Transformer蒸馏成线性RNN是可行的，这需要学术型GPU资源。由此产生的混合模型，融合了四分之一的注意力层，在聊天基准测试中的表现与原始Transformer相当，并且在聊天基准测试和通用基准测试中均优于从头开始训练的开源混合Mamba模型，这些模型使用了数万亿个标记进行训练。此外，我们引入了一种硬件感知的推测性解码算法，该算法加速了Mamba和混合模型的推理速度。总体而言，我们展示了如何在有限的计算资源下移除许多原始的注意力层，并从结果模型中更高效地生成。我们表现最佳的模型，从Llama3-8B-Instruct蒸馏而来，在AlpacaEval 2上达到了29.61的长度控制胜率，并在MT-Bench上达到了7.35，超过了最佳指令调谐的线性RNN模型。

打开封面下载高清视频观看高清视频视频下载器

康奈尔大学 The Mamba in the Llama：蒸馏加速混合模型

【全374集】2024最新清华内部版！终于把AI大模型（LLM）讲清楚了！全程干货讲解，通俗易懂，拿走不谢！

【全300集】清华大学2024版Transformer教程！入门到进阶，全程干货讲解！拿走不谢！（神经网络/NLP/深度学习/BERT/大模型/GPT/RNN）

从零开始Mamba之路 | 如何从线性RNN的角度推导Mamba？

Langchain下的GraphRag与DBGPT对比(一)

#1 - Mega Moving Average Equipped Gated Attention

掌握 Transformer 模型与 LLM 微调

Efficiently Modeling Long Sequences with Structured State Space 结构化状态空间模型用于长时序建模

【AI大模型】使用Ollama+RAGFlow搭建一个非常好用的知识库！支持多种文件类型，本地部署大模型，效果好到尖叫！新人小白必看教程！

ClimaX -用于天气预测的基础模型

#4 - Hungry Hungry Hippos Towards Language Modeling with State Space Models

这可能是B站最完整的Transformer讲解了！一口气学完DETR⽬标检测、DETR项⽬源码解读、项⽬源码debug逐⾏解读、注意⼒机制的作⽤分析-人工智能

强推！目前B站最全最细的LlamaIndex零基础全套课程，大模型实战系列，全流程解读分析，包含所有干货！七天就能从小白到大神！存下吧！简直比刷剧还爽！

KAN真的能取代MLP吗

Cristina Cipriani： 一种用于训练神经ODE和自编码ODE的平均场最优控制方法

【比刷剧还爽！】从入门到精通CNN、RNN、GAN、GNN、DQN、Transformer、LSTM等八大深度学习神经网络一口气学完！

谱图理论简要入门

这也太全了！CNN卷积+RNN循环+GAN+自编码器+LSTM+Transformer+GNN+CapsuleNet等八大深度学习神经网络算法教程一口气学完！

2024阿里大佬带你独立搭建一套完整RAG实战教程！（模型、原理、增强检索、向量数据库、实战）

卡耐基梅隆 Neural Feels with Neural Fields: 视觉-触觉感知在手持操纵中的应用

【Mamba/S4 架构详解 by Umar Jamil】

从0到1搭建自己的的智能体（Agent）！大模型Agent智能体企业级项目实战：手把手带你搭建，原理讲解+代码解析，超详细，LLM_大模型_微调_提示词

【AI大模型】使用Ollama+Dify搭建一个专属于自己的知识库！支持多种文件类型，本地部署大模型，效果出奇的好！

【卡耐基梅隆大学SIGGRAPH2024】Laplacian is All You Need ：计算符号距离的扩散方法

【全198集】从入门到精通一口气学完CNN、RNN、GAN、GNN、Transformer等八大深度学习神经网络！这不比刷剧爽多了！（人工智能/深度学习）

【强推】吴恩达《自然语言处理|natural language processing》NLP中最重要的核心内容全整理好啦！这么好的课程还没人看？我不更了！！

SE(3)-随机流匹配用于蛋白质骨架生成

推理速度快2.5倍！最新Mamba-Transformer架构Jamba 1.5模型震撼登场：256K超长上下文+940亿参数，结合LangFLow打造AI理财

神经网络必看！如何从零入门CNN、RNN、GAN、GNN、DQN、Transformer、LSTM等！清华大佬一天就教会了我如何入门神经网络算法，究极通俗易懂

沉浸式大模型面试，你能扛到第几枪？

2024年5款开源本地知识库全面对比解析：到底哪一款最适合你？深入解析助你选择最佳方案！大模型入门，大模型教程

从基于物理的建模到科学机器学习的预测性数字孪生

【深度学习零基础篇】从入门到精通一口气学完CNN、RNN、GAN、GNN、DQN、Transformer、LSTM等八大深度学习神经网络！人工智能/深度学习

BUMP OF CHICKEN × 扳机社TRIGGER ×Takaratomy 《变形金刚》40周年纪念特别影片正式公开

杜克大学 SonicSense 基于手持式声学传感的物体感知

Equivariant flow matching 等变流匹配

流匹配：简化和泛化扩散模型

大语言模型多选题评估的偏见与鲁棒性

【AI大模型】使用Ollama+FastGPT搭建一个自己的知识库！支持多种文件类型，本地部署大模型，开源免费使用，效果出奇的好！

西门子的模型降阶技术案例分析

毕设有救了！3小时你玩转NLP核心框架—BERT模型，基于BERT模型的文本分类、情感分析及中文命名实体识别实战教程！人工智能/深度学习/机器学习/神经网络

Cristina Cipriani：一种用于训练神经ODE和自编码ODE的平均场最优控制方法