HPHEX|[ICML'23 Paper Reading] Deja Vu：高效大模型推理时的上下文稀疏性

发布人

本期讲者：Zixuan Wang, a first-year Ph.D. student at University of Chinese Academy of Sciences (UCAS). His research interests include stencil computing and locality theory.
《Deja Vu: Contextual Sparsity for Efficient LLMs at Inference Time》主要研究如何通过“上下文稀疏性”来提升大语言模型（LLM）的推理效率。上下文稀疏性是指模型在特定输入下，仅需激活一小部分注意力头和多层感知机（MLP）参数，即可获得与完整模型相近的输出结果。该论文提出了一种名为“Deja Vu”的系统，它通过低成本算法来动态预测每一层的稀疏性，同时结合异步和硬件优化的实现方式，显著加速推理速度。例如，对于OPT-175B模型，Deja Vu将推理延迟减少了两倍以上，相较于Hugging Face实现版本，提升达六倍。

打开封面下载高清视频观看高清视频视频下载器

HPHEX|[ICML'23 Paper Reading] Deja Vu：高效大模型推理时的上下文稀疏性

HPHEX组会 | [PPOPP'23 Best Paper] ConvStencil:突破HPC与AI的“软硬”边界，开启科学计算新范式

HPHEX组会|[IPDPS'24] VNEC: 一种面向CPU上SpMV的向量化非空列稀疏存储格式

【全374集】2024最新清华内部版！终于把AI大模型（LLM）讲清楚了！全程干货讲解，通俗易懂，拿走不谢！

【HPC+AI4Science】1. 大规模并行科学计算的下一步？Cloud4Science新范式。

Phidata：首个代理 UI - 构建具有记忆、知识、工具和推理能力的代理！（开源）

30分钟教会你使用Llama Factory微调一个专属自己的中文llama3

【双语】DoRA: Weight-Decomposed Low-Rank Adaptation [ICML 2024]

Agent+RAG大模型落地应用实践经验分享（超级干货）

全程干货！低成本手把手教你Fine-Tuning基于Qwen2.5-7B大模型从零微调行业大模型，过程可视化呈现

【小白福音】Ollama + AnythingLLM，有手就行本地知识库部署，从安装到部署，手把手教你玩转知识库！

微软亚洲研究院系统研究组2022夏季实习生招聘【HPC+AI方向】

【B站最详细】使用Ollama+fastGpt搭建一个全能知识库！专属自己！支持多种文件类型，实现本地化大型模型部署，效果非凡！

15分钟快速上手，如何为RAG选择一款合适的embedding模型？（附教程）

AlphaFold 3 模型架构

多模态大模型的时代 | 多模态大模型的基本概念

如何部署一个属于自己的ChatGLM-4大语言模型--环境配置+模型微调+模型部署+效果展示,手把手教会你！

免费无限使用大语言模型，国内主流AI智能助手汇总

大语言模型课程Lesson1-1 什么是大语言模型？

用GPT-4.0训练小200万倍可直接本地运行的小模型

2024吃透AI大模型（LLM+RAG系统+GPT-4o+OpenAI）通俗易懂，学完即就业!拿走不谢，学不会我退出IT圈！！！

【大模型面试】Flash Attention面试连环炮，淘汰80%面试竞争者

冒死上传！目前B站最完整的大模型微调教程，适应于所有大模型微调实战！微调|量化|部署|应用

10分钟快速部署上手RAGFlow！支持多种文件类型，大模型小白必看本地部署大模型教程（附教程）

【AI大模型】AI Agent智能体详解，初学者的入门综合指南！

【喂饭教程】6分钟学会微调大模型GLM-4，环境配置+模型微调+模型部署+效果展示详细教程！草履虫都能学会~

OpenWebUI+Ollama本地部署保姆级教程（非Docker），轻松搭建大语言模型！

【自学AI Agent】绝对是我在B站见过最全的Agent智能体行业落地应用实战教程！MOE模型、LORA、RAG

B站首推！AI大模型课程2024年最新版！从零基础到入行大模型算法工程师，看完这一篇就够了，学完来找我内推！

沃尔夫勒姆：机器意识将是基于算法的新型觉醒

【开箱即用】10分钟快速上手部署RAGFlow，构建你的专属助理！真的非常好用！附安装包和文档，支持多种文件类型，本地部署大模型，效果好到尖叫！新人小白必看教程

【大模型应用框架】LangChain系统教程，从零基础入门到实战！全程干货讲解，通俗易懂！（LLM/大模型/LangChain/RAG）

Ollama + AnythingLLM，本地知识库+LLM 组合拳，有手就行，快速部署，大模型小白福音！

【全748集】这绝对是2024最细最适合自学的AI大模型实战教程：提示词+应用框架+知识库+智能体+微调原理讲解+代码解析，草履虫都能轻松听懂！

10分钟详细解析GraphRAG环境配置、本地部署流程、本地数据库导入、neo4j构建知识图谱，草履虫轻松学会操作！

Qwen2.5 Coder：文本转 SQL 能力超越对手？实测告诉你！

第一个发现用github学大模型的人真的是天才！

PPOPP'24最佳论文 | 英国参会volg

本地部署企业级大模型新姿势：智能体一体机

筷瘦可灵AI的视频生成模型简介

忽然发现，Qwen的简化回答很有趣