V
主页
[ICML 2024] 揭示与利用隐藏注意力下沉:通过注意力校准在无需训练的情况下增强大型语言模型
发布人
[ICML 2024] Unveiling and Harnessing Hidden Attention Sinks: Enhancing Large Language Models without Training through Attention Calibration. Attention is a fundamental component behind the remarkable achievements of large language models (LLMs). However, our current understanding of the attention mechanism, especially regarding how attention distributions are established, remains limited. Inspired by recent studies that explore the presence of attention sink in the initial token, which receives disproportionately large attention scores despite their lack of semantic importance, this work delves deeper into this phenomenon. We aim to provide a more profound understanding of the existence of attention sinks within LLMs and to uncover ways to enhance the achievable accuracy of LLMs by directly optimizing the attention distributions, without the need for weight finetuning. Specifically, this work begins with comprehensive visualizations of the attention distributions in LLMs during inference across various inputs and tasks. Based on these visualizations, to the best of our knowledge, we are the first to discover that (1) attention sinks occur not only at the start of sequences but also within later tokens of the input, and (2) not all attention sinks have a positive impact on the achievable accuracy of LLMs. Building upon our findings, we propose a training-free Attention Calibration Technique (ACT) that automatically optimizes the attention distributions on the fly during inference in an input-adaptive manner. Extensive experiments validate that ACT consistently enhances the accuracy of various LLMs across different applications. Specifically, ACT achieves an average improvement of up to 7.30% in accuracy across different datasets when applied to Llama-30B.
打开封面
下载高清视频
观看高清视频
视频下载器
【研1基本功 (真的很简单)Group Query-Attention】大模型训练必备方法——bonus(位置编码讲解)
真的超容易“搞深度学习神经网络到底怎么改代码的啊?”复旦博士教我用一本书搞定!
9个报错?但我代码只有8行?
喂饭教程!25分钟本地部署Qwen2大模型:配置、微调、部署+效果展示,带你训练自己的行业大模型!
[ISCA 2023] Instant-3D:针对设备上 AR/VR 3D 重建的即时神经辐射现场训练
ai永远无法替代ai
我就说AI取代不了人类吧
2024年后想入坑程序员请注意:千万别碰这些即将被计算机行业淘汰的IT语言!(马士兵)
2025版AI大模型全套视频 (LLM+RAG系统+GPT-4o+OpenAI)这绝对是ai大模型教程天花板!
[ICCAD 2023] GPT4AIGChip: 通过大语言模型实现AI加速器设计自动化
2025年入行计算机行业请注意:千万别碰这5个即将被市场淘汰的语言!
马斯克的AI大模型五分钟上手!每月25美元免费额度!
[NeurIPS 2023] ShiftAddViT:通过混合矩阵乘法/移位/加减实现高效的视觉Transformer
2024最新自动答题脚本,准确率100%!轻松解放双手,实现网课自由,Python过学习通脚本,网课脚本,刷题脚本,学习通自动答题脚本
(超爽中英!) 2024公认最全的【吴恩达大模型LLM】系列教程!附代码_LangChain_微调ChatGPT提示词_RAG模型应用_agent_生成式AI
开源AI女友安装教学 [Open-LLM-VTuber]
【中英双语】ChatGPT背后的数学原理是什么?带你看懂Transformer模型的数学矩阵实现!
[LAD 2024] MG-Verilog: 增强型 LLM 辅助 Verilog 的多粒度数据集
学术报告-大语言模型的知识学习研究-黄书剑-南京大学自然语言处理组
[ISCA 2023] Gen-NeRF: 基于软硬件协同设计的高效可泛化神经辐射场
Telegram十亿用户市场无人问津?微软AI月访破6000万!
尝试谈谈我的学习方法
吹爆!这可能是2024最新的Python教程,公认最适合新手入门python编程语言,全程干货无废话!比看动画片还爽!
利用Matlab进行公式推导技巧
《论我用50行代码就写了个hello world》
2024吃透SpringBoot+Vue前后端分离电商项目实战完整版教程,三天学完,让你少走99%弯路!!
小心!公司电脑截图里面掺了东西!
【2025版AI大模型教程】这可能是B站唯一能将AI大模型(LLM+RAG系统+GPT-4o+OpenAI)全讲明白的教程!存下吧,很难找全的!少走99%弯路!
深度学习实战2 神经网络计算动画 动态视觉解锁AI的核心 一步步看懂AI背后的计算魔法
【AI搞钱实操】利用AI月入过万?5分钟生成AI火柴人视频火爆全网,打工人必学的AI副业项目!
【AI绘画】SDLora模型推荐,冒死上传,随时下架,新手必备模型2024在C站排名第一,让你画面增强十倍 SD教程 AI商业 AI设计 AI电商
学C是令人崩溃的,写了一上午就写出来了2道题!!!
我在B站上大学!【完整版-麻省理工-微积分重点】全18讲!学数学不看的微积分课程,看完顺滑一整年。_人工智能数学基础/机器学习/微积分/麻省理工/高等数学
[HPCA 2023] ViTCoD: 通过专用算法和加速器协同设计实现 Vision Transformer 加速
原来下班后除了玩手机,还可以搞这么多事!
为了不写作业,12岁直接黑掉学校系统....
【2024年11月最新chatgpt】GPT4.0免费使用教程来了,无限次数使用,随便用!
【全748集】这绝对是2024最全最细的Python全套教学视频,七天看完编程技术猛涨!别再走弯路了,从零基础小白到Python全栈这一套就够了!
战双露娜170cm的机器人,长高了的露娜,长大了的露娜,来到现实的露娜,露娜,腿部稍微动一下
import看似简单,实则埋坑不少 | Python 易错点