无矩阵乘法LLM - 一个来自线性Transformer的视角

发布人

无矩阵乘法LLM - 一个来自线性Transformer的视角

论文：Scalable MatMul-free Language Modeling
链接：https://arxiv.org/pdf/2406.02528

内容大纲
   1. 背景：
       - 无乘法网络
       - 线性注意力机制
   2. 无乘法语言模型组件介绍
       - 线性无乘法token mixer
       - 三值化channel mixer与fused结构
   3. 深入分析无乘法token mixer
   4. 实验
      1. Downstream benchmark
      2. Fused BitNet 的速度

个人简介
朱芮捷是加州大学圣克鲁兹分校（UCSC）计算机工程专业的一年级博士生，他于2023年秋季开始在UCSC攻读博士学位，此前在中国电子科技大学获得学士学位。他的深度学习研究始于脉冲神经网络。在本科期间，他曾参与多个知名开源神经形态项目，包括snnTorch和SpikingJelly。随着研究兴趣的扩展，他将重点转向高效语言模型。他加入了RWKV（首个基于RNN的语言模型）的开发团队，并开发了SpikeGPT和Matmul-free LM。目前，他的研究主要聚焦于通过高效推理的视角来扩展模型规模。他对神经网络架构、语言模型优化以及高效计算方法等领域有兴趣。

打开封面下载高清视频观看高清视频视频下载器

无矩阵乘法LLM - 一个来自线性Transformer的视角

机械手爬行

从0开始训练1.4b中文大模型的经验分享

【ChatGPT4.0手机版】国内无需魔法，无限次数使用教程来了！

11月20日最新ChatGPT4.0使用教程，国内版免费网站，电脑手机版如何免下载安装通用2024

【全374集】2024最新清华内部版！终于把AI大模型（LLM）讲清楚了！全程干货讲解，通俗易懂，拿走不谢！

2024吃透AI大模型（LLM+RAG系统+GPT-4o+OpenAI），3天学完，让你少走99%弯路！

鲨疯了！最适合新手入门的【LLM医疗大模型】教程：医疗大模型LLM应用现状及如何微调一个医疗大模型？我竟然一天就搞懂了！

开源AI女友安装教学 [Open-LLM-VTuber]

GPT o1模型使用及API调用

什么是扩散模型？

B站讲的最好的AI大模型实战（2024最新版）LLM+RAG系统+GPT-4o+OpenAI，全部都讲明白了！！

2024最新版AI大模型短期训练教程，逼自己一周学完（LLM+RAG系统+GPT-4o+OpenAI）光刷完就赢麻了，通俗易懂|学完即就业！

从零开始，教你手搓一个精简版LLM，把参数缩减到足够单卡训练的NanoGPT，纯小白教学！

为了让电脑更快，他们把“乘法”玩到了极致

LLM推理加速新范式！推测解码（Speculative Decoding）最新综述

2024逼自己一周学会AI大模型(LLM+RAG系统+GPT-4o+OpenAI)，全程通俗易懂，别再走弯路了，学不会我退出IT界！

从零开始训练大模型

【2024年11月最新chatgpt】GPT4.0免费使用教程来了，无限次数使用，随便用！

为什么神经网络可以学习几乎任何东西？

B站讲的最好的AI大模型教程，包含【LLM+RAG系统+GPT-4o+OpenAI】所有核心知识点，一周学完，让你少走99%弯路！

【中英双语】ChatGPT背后的数学原理是什么？带你看懂Transformer模型的数学矩阵实现！

2024年吃透AI大模型(LLM+RAG系统+GPT-4o+OpenAI) 全程通俗易懂，别再走弯路了，逼自己一周学完，少走99%弯路，学不会我退出IT界！

【全878集】零基础自学AI大模型能救一个是一个，新手小白少走99%的弯路（LLM+RAG系统+GPT-4o+OpenAI）光刷完就赢麻了，通俗易懂|学完即

B站强推！这可能是唯一能将LLAMA3讲清楚的教程了，llaama3微调-量化-部署-应用实例解读，还学不会的你来锤爆我！人工智能|机器学习|深度学习

OpenWebUI+Ollama本地部署保姆级教程（非Docker），轻松搭建大语言模型！

2024吃透AI大模型(LLM+RAG系统+GPT-4o+OpenAI)全程干货，拿走不谢，允许白嫖！！

LLM智能应用开发 L8：大语言模型解析 V MoE, LoRA [2024南京大学计算机学院选修课]

【小白福音】Ollama + AnythingLLM，有手就行本地知识库部署，从安装到部署，手把手教你玩转知识库！

30分钟教会你使用Llama Factory微调一个专属自己的中文llama3

用GPT-4.0训练小200万倍可直接本地运行的小模型

如何加速大语言模型推理？万字长文综述大语言模型高效推理技术

不看太可惜！又快又准，即插即用！Sage Attention——清华8bit量化Attention

LLM智能应用开发 L9：大语言模型解析 VI 数据集处理, 微调 [2024南京大学计算机学院选修课]

真的超容易“搞深度学习神经网络到底怎么改代码的啊？”复旦博士教我用一本书搞定！

【微调实战】喂饭级教程！！15分钟学会Qwen2-7B微调及部署，帮你从零基础到大神，通俗易懂，连草履虫都能学会~

手撕代码#1｜为了128K context的attention map我真的是手撕到不行

斯坦福大学《强化学习|Stanford CS234 Reinforcement Learning 2024》deepseek翻译

来看看ChatGPT如何回答多年前马科长的这段采访。

外网热议:波士顿机器野猫网友:这款割草机的设计非常奇怪

无矩阵乘法LLM - 一个来自线性Transformer的视角

机械手爬行

从0开始训练1.4b中文大模型的经验分享

【ChatGPT4.0手机版】国内无需魔法，无限次数使用教程来了！

11月20日最新ChatGPT4.0使用教程，国内版免费网站，电脑手机版如何免下载安装通用2024

【全374集】2024最新清华内部版！终于把AI大模型（LLM）讲清楚了！全程干货讲解，通俗易懂，拿走不谢！

2024吃透AI大模型（LLM+RAG系统+GPT-4o+OpenAI），3天学完，让你少走99%弯路！

鲨疯了！最适合新手入门的【LLM医疗大模型】教程：医疗大模型LLM应用现状及如何微调一个医疗大模型？我竟然一天就搞懂了！

开源AI女友安装教学 [Open-LLM-VTuber]

GPT o1模型使用及API调用

什么是扩散模型？

B站讲的最好的AI大模型实战（2024最新版）LLM+RAG系统+GPT-4o+OpenAI，全部都讲明白了！！

2024最新版AI大模型短期训练教程，逼自己一周学完（LLM+RAG系统+GPT-4o+OpenAI）光刷完就赢麻了，通俗易懂|学完即就业！

从零开始，教你手搓一个精简版LLM，把参数缩减到足够单卡训练的NanoGPT，纯小白教学！

为了让电脑更快，他们把“乘法”玩到了极致

LLM推理加速新范式！推测解码（Speculative Decoding）最新综述

2024逼自己一周学会AI大模型(LLM+RAG系统+GPT-4o+OpenAI)，全程通俗易懂，别再走弯路了，学不会我退出IT界！

从零开始训练大模型

【2024年11月最新chatgpt】GPT4.0免费使用教程来了，无限次数使用，随便用！

为什么神经网络可以学习几乎任何东西？

B站讲的最好的AI大模型教程，包含【LLM+RAG系统+GPT-4o+OpenAI】所有核心知识点，一周学完，让你少走99%弯路！

【中英双语】ChatGPT背后的数学原理是什么？带你看懂Transformer模型的数学矩阵实现！

2024年吃透AI大模型(LLM+RAG系统+GPT-4o+OpenAI) 全程通俗易懂，别再走弯路了，逼自己一周学完，少走99%弯路，学不会我退出IT界！

【全878集】零基础自学AI大模型能救一个是一个，新手小白少走99%的弯路（LLM+RAG系统+GPT-4o+OpenAI）光刷完就赢麻了，通俗易懂|学完即

B站强推！这可能是唯一能将LLAMA3讲清楚的教程了，llaama3微调-量化-部署-应用实例解读，还学不会的你来锤爆我！人工智能|机器学习|深度学习

OpenWebUI+Ollama本地部署保姆级教程（非Docker），轻松搭建大语言模型！

2024吃透AI大模型(LLM+RAG系统+GPT-4o+OpenAI)全程干货，拿走不谢，允许白嫖！！

LLM智能应用开发 L8：大语言模型解析 V MoE, LoRA [2024南京大学计算机学院选修课]

【小白福音】Ollama + AnythingLLM，有手就行本地知识库部署，从安装到部署，手把手教你玩转知识库！

30分钟教会你使用Llama Factory微调一个专属自己的中文llama3

用GPT-4.0训练小200万倍可直接本地运行的小模型

如何加速大语言模型推理？万字长文综述大语言模型高效推理技术

不看太可惜！又快又准，即插即用！Sage Attention——清华8bit量化Attention

LLM智能应用开发 L9：大语言模型解析 VI 数据集处理, 微调 [2024南京大学计算机学院选修课]

真的超容易“搞深度学习神经网络到底怎么改代码的啊？”复旦博士教我用一本书搞定！

【微调实战】喂饭级教程！！15分钟学会Qwen2-7B微调及部署，帮你从零基础到大神，通俗易懂，连草履虫都能学会~

手撕代码#1｜为了128K context的attention map我真的是手撕到不行

斯坦福大学《强化学习|Stanford CS234 Reinforcement Learning 2024》deepseek翻译

来看看ChatGPT如何回答多年前马科长的这段采访。

外网热议:波士顿机器野猫 网友:这款割草机的设计非常奇怪

外网热议:波士顿机器野猫网友:这款割草机的设计非常奇怪