V
主页
【SOSP'23】【闪电演讲】UGACHE: A Unified GPU Cache for Embedding-based Deep Learning
发布人
【SOSP'23】UGACHE: A Unified GPU Cache for Embedding-based Deep Learning 论文链接;https://dl.acm.org/doi/pdf/10.1145/3600006.3613169 论文介绍: 随着深度学习应用规模的不断发展,GPU内存成为紧缺资源,探索如何高效协同利用多GPU内存资源逐渐成为关键问题。针对基于Embedding的深度学习中存在的访问热度差异以及只读等特性,本工作提出UGache系统,从缓存策略和提取机制两个角度入手,解决现有Embedding缓存方法在命中率和硬件资源利用率上存在的问题。在缓存策略方面,UGache针对硬件平台中的拓扑多样性以及带宽不对称问题,结合数据负载特征进行建模,从平衡本地与远程命中率入手,将缓存放置策略问题映射为MILP问题,并对问题进行近似以在秒级时间内获得近最优结果(误差在5%以内)。在提取机制方面,UGache对不同GPU间高速互联结构进行统一抽象,并利用factor机制避免链路带宽竞争,充分提高带宽利用率来匹配GPU的大算力。实验结果显示,UGache能将Embedding提取速度提升最高4.5倍,并平均提升GNN训练性能平均3.2倍以及DLR推理性能1.7倍。本项研究是 IPADS 实验室在利用基础系统软件解决GPU等大算力硬件内生局限性方面的系列探索性工作之一。相关研究成果:REEF [OSDI'22](GPU即时大算力调度)、GNNLab [EuroSys'22] (多GPU资源空分复用)。
打开封面
下载高清视频
观看高清视频
视频下载器
【SOSP'23】【闪电演讲】TreeSLS : A Whole-system Persistent Microkernel with Tree-stru
【OSDI'24】【闪电演讲】 Fast and Scalable In-network Lock Management Using Lock Fission
【OSDI'24】【闪电演讲】Using Dynamically Layered Definite Releases for Verifying the...
【OSDI'20】Fast RDMA-based Ordered Key-Value Store using Remote Learned Cache
MMU专题-内存管理-Armv8_Armv9
【EuroSys21】Bridging the Performance Gap for Copy-based GC atop NVM
【ATC '23】Bridging the Gap between Relational OLTP and Graph-based OLAP
【MICRO'23】Accelerating Extra Dimensional Page Walks for Confidential Computing
案例:MMU/TLB/Cache/异常中断/Trustzone综合性问题难题分析
【APNET'23】Microsecond-scale Datacenter Computing with RDMA: Characterization...
IPADS OSDI23论文介绍之DuVisor
操作系统实验讲解:内存管理
操作系统实验讲解:进程与线程
1.3 macOS的演变:从 POWER 到 X86 再到 ARM
【ATC'21】Characterizing and Optimizing Remote Persistent Memory with RDMA and NVM
NVIDIA 数据中心解决方案及行业案例解析
【ASPLOS'23】BeeHive: Sub-second Elasticity for Web Services with Semi-FaaS Execut
【OSDI'22】Microsecond-scale Preemption for Concurrent GPU-accelerated DNN Infe...
可扩展操作系统同步原语:原理与实现(陈海波老师的报告)
HPHEX组会 | [PPOPP'23 Best Paper] ConvStencil:突破HPC与AI的“软硬”边界,开启科学计算新范式
USENIX ATC '20 - UnderBridge
【ISCA'21】Confidential Serverless Made Efficient with Plug-In Enclaves
【NSDI'21】Unifying Timestamp with Transaction Ordering for MVCC with DST
【HPCA'23】Efficient Distributed Secure Memory with Migratable Merkle Tree
操作系统实验讲解:机器启动
4.2 进程“同时”运行的奥秘:分时复用与上下文切换
【OSDI'21】Penglai: Scalable Enclaves for Modular Applications
【FAST '22】MT2: Memory Bandwidth Regulation on Hybrid NVM/DRAM Platforms
IPADS新人培训第七讲:内核调试
【USENIX Security'20】CloudVisor-D
字节、米哈游、百度面经:手撕LRUCache
16-sohu芯片为何能跑赢H100
【OSDI'21】Bringing Decentralized Search to Decentralized Services
IPADS OSDI23论文介绍之Off-path SmartNIC性能分析
AI 工程师都应该知道的GPU工作原理,TensorCore
实战揭秘:如何利用 AI 提高生产力?
英伟达AMD显卡推荐图
疯了!NVIDIA H20 GPU也要禁售了吗?
IPADS OSDI23论文介绍之HEDB
【ATC'22】EPK: Scalable and Efficient Memory Protection Key