ASPLOS2024上LLM推理服务优化分享 - 视频下载 Video Downloader

ASPLOS2024上LLM推理服务优化分享

发布人

打开封面下载高清视频观看高清视频视频下载器

字节万级GPU集群LLM训练

[ASPLOS2023] Heron：为深度学习加速器自动生成高性能约束库的方法

DéjàVu: 稀疏上下文的高效LLM推理服务

[APNEET2023] 超大规模RDMA：经验和未来方向

可微轨迹优化作为强化和模仿学习的策略表示

MuxServe：灵活的多路复用实现高效的多个LLM服务

编译器的黄金时代

RISC-V Microprocessors

[NSDI 2024] Parcae: 可抢占实例中主动、liveput优化的DNN训练

边缘云端高效的LLM推理

[NSDI 2023] DNN训练中优化GPU能效

Groq LPU

[SIGGRAPH 2024] 实时物理毛发插值

[NSDI 2024] DISTMM：加速多模态模型训练

[ASPLOS2023] NUBA: Non-Uniform Bandwidth GPUs

重看块量化：在Sub-8-bit LLM推理里什么是重要的

[APNET2023] 使用RDMA的微秒级数据中心计算：表征、优化和展望

[NSDI 2024] CASSINI： ML集群中的网络感知job调度

TPU V4 and Trends in Accelerator Hardware

物理视角看GNN

FAST2024最佳论文，十余年阿里云弹性块存储(EBS)演进

DBRX及MosaicAI部署个人LLM

从物理互动中学习结构化世界模型

[NSDI2023] TopoOpt: 为DNN训练作业联合优化网络拓扑和并行化策略

Mamba和S4解读：架构、并行扫描、内核融合、循环、卷积、数学

Jeff Dean揭秘Google Gemini

基于概率图重排的3D碰撞距离估计网络

SIGIR 2024，信息检索发展历程

敏捷自适应四足机器人的分层优化控制

Stanford EE259：镜头、图像传感器、图像信号处理

TPUv4i

MIT机器人操作Lecture 2

家庭通用机器人

在线ML边缘侧应用

Meta：大规模AI集群维护

机器人学习中的收缩理论

AI中需要的网络和存储技术

机器人中的数值方法

[SIGCOMM2023] ： Offloading

[OSDI2023] Sky Computing