V
主页
京东 11.11 红包
HPHEX|[ICML'23 Paper Reading] Deja Vu:高效大模型推理时的上下文稀疏性
发布人
本期讲者:Zixuan Wang, a first-year Ph.D. student at University of Chinese Academy of Sciences (UCAS). His research interests include stencil computing and locality theory. 《Deja Vu: Contextual Sparsity for Efficient LLMs at Inference Time》主要研究如何通过“上下文稀疏性”来提升大语言模型(LLM)的推理效率。上下文稀疏性是指模型在特定输入下,仅需激活一小部分注意力头和多层感知机(MLP)参数,即可获得与完整模型相近的输出结果。该论文提出了一种名为“Deja Vu”的系统,它通过低成本算法来动态预测每一层的稀疏性,同时结合异步和硬件优化的实现方式,显著加速推理速度。例如,对于OPT-175B模型,Deja Vu将推理延迟减少了两倍以上,相较于Hugging Face实现版本,提升达六倍。
打开封面
下载高清视频
观看高清视频
视频下载器
【HPC+AI4Science】1. 大规模并行科学计算的下一步?Cloud4Science新范式。
HPHEX组会 | [PPOPP'23 Best Paper] ConvStencil:突破HPC与AI的“软硬”边界,开启科学计算新范式
万字解析OpenAI o1(上)模型与脉络
【B站首发全新】吴恩达最新课程-RAG的知识图谱 | Knowledge Graphs for RAG 【附课件+代码】学AI大模型的必看!!
PPOPP'24最佳论文 | 英国参会volg
一键部署本地私人专属知识库,开源免费!1000多种开源大模型随意部署!
【2024最新版】清华大佬终于把AI大模型(LLM)讲清楚了!全程干货讲解,通俗易懂!学不会我退出IT圈!
【LLM大模型+微调】从0到1入门AI大模型!LLM大模型Llama3保姆级教程,从LangChain到微调!理论+原理+代码深入解析!(附课件)
微调大语言模型 本地WINDOWS笔记中 奇妙的一段人机对话
【小白教程】20分钟学会qwen大模型本地部署+微调法律大模型,仅需5G内存,小白一学就会!
【全100集】2024最新清华内部版!B站上终于有人把AI大模型LLM给讲清楚了!全程干货讲解,超级适合小白入门,建议收藏!
【李宏毅】2024秋《生成式人工智能导论》教程!LLM大模型入门到进阶,比刷剧爽多了!--附带课件代码
史上最强换脸软件FaceFusion3.0来了(附整合包)!从安装到使用一个视频讲明白!增加最新换脸模型+人脸解析模型、支持LivePortrait表情控制
【油管大神】少走99%弯路!《大语言模型》技术大佬带你从零基础开始,带你手撸大模型!
墙裂推荐!25分钟搞定qwen大模型本地部署+微调法律大模型(只需5G内存)
HPHEX|[SC'24]LoRAStencil: 当大模型中的LoRA技术映射到Tensor Cores上的Stencil科学计算
【2024全宇宙最简单AI大模型项目实战-4】LangChain+RAG+LlamaIndex+Agent
大语言模型课程Lesson1-1 什么是大语言模型?
【限时开放】最新AI人工智能零基础全套课程!探究AI原理+大量实操项目,机器学习/深度学习/神经网络/大语言模型
How to change your draft to AISTATS 2025 template?
微软亚洲研究院实习生直招(异构计算组/系统组/机器学习组)
OpenAI GPT4o模型快速入门实战|最强大模型GPT4o零基础入门实战
吹爆!2024公认最好的大模型学习课程!不愧是清华教授讲解!18个小时带你从入门到起飞!
【Huggingface、BERT实战】假如你从10月16号开始学大模型!2024年大模型最强学习路线来啦!跟着这套流程走助你快速拿offer,持续更新中!
微软亚洲研究院系统研究组2022夏季实习生招聘【HPC+AI方向】
【2024全宇宙最简单AI大模型环境安装配置实战2】Anaconda+Conda+Pip+Python+Pytorch+Tensorflow+LangChain
什么是大模型RAG技术?全面梳理RAG的原理和行业未来!
【大模型】油管大佬带你从0到1玩转大语言模型!手把手教你打造大模型,少走99%的弯路!
用NotebookLM总结Meta Video Gen论文
飞鸽传书[第11期]新石头记
【全程干货】1小时玩转LangChain,从入门到精通最新教程,草履虫都能听懂!!!大模型_LLM_人工智能
【中英双语】ChatGPT背后的数学原理是什么?带你看懂Transformer模型的数学矩阵实现!
吴恩达 AI大模型系列:介绍 MultimodalLlama 3.2丨Introducing Multimodal Llama 3.2 附课件+代码文档
AI圈疯传!外网爆火的这本还未发售的书,10月29日正式发布,从零开始构建LLM大语言模型(附PDF文档)
【Llama3微调全攻略】B站最全教程!手把手教你微调-量化-部署-应用一条龙!
【中英双语字幕】使用LangChain进行大语言模型应用开发 deeplearning.ai课程 吴恩达人工智能课程
为什么零一万物最近宣传的线性模型复杂度是错的?
Dify+Ollama+llava大模型本地搭建个人AI知识库并实现远程访问
李开复FII大会重磅发言:未来企业只有两种可能——拥抱AI生存,或拒绝变革消亡
真绝了!吴恩达详解RAG落地应用核心技术分享,检索优化:从分词到矢量量化 | 附课件+代码文档