V
主页
ASPLOS2024上LLM推理服务优化分享
发布人
打开封面
下载高清视频
观看高清视频
视频下载器
字节万级GPU集群LLM训练
[ASPLOS2023] Heron:为深度学习加速器自动生成高性能约束库的方法
DéjàVu: 稀疏上下文的高效LLM推理服务
[APNEET2023] 超大规模RDMA:经验和未来方向
可微轨迹优化作为强化和模仿学习的策略表示
MuxServe:灵活的多路复用实现高效的多个LLM服务
编译器的黄金时代
RISC-V Microprocessors
[NSDI 2024] Parcae: 可抢占实例中主动、liveput优化的DNN训练
边缘云端高效的LLM推理
[NSDI 2023] DNN训练中优化GPU能效
Groq LPU
[SIGGRAPH 2024] 实时物理毛发插值
[NSDI 2024] DISTMM: 加速多模态模型训练
[ASPLOS2023] NUBA: Non-Uniform Bandwidth GPUs
重看块量化:在Sub-8-bit LLM推理里什么是重要的
[APNET2023] 使用RDMA的微秒级数据中心计算:表征、优化和展望
[NSDI 2024] CASSINI: ML集群中的网络感知job调度
TPU V4 and Trends in Accelerator Hardware
物理视角看GNN
FAST2024最佳论文,十余年阿里云弹性块存储(EBS)演进
DBRX及MosaicAI部署个人LLM
从物理互动中学习结构化世界模型
[NSDI2023] TopoOpt: 为DNN训练作业联合优化网络拓扑和并行化策略
Mamba和S4解读:架构、并行扫描、内核融合、循环、卷积、数学
Jeff Dean揭秘Google Gemini
基于概率图重排的3D碰撞距离估计网络
SIGIR 2024,信息检索发展历程
敏捷自适应四足机器人的分层优化控制
Stanford EE259:镜头、图像传感器、图像信号处理
TPUv4i
MIT机器人操作Lecture 2
家庭通用机器人
在线ML边缘侧应用
Meta:大规模AI集群维护
机器人学习中的收缩理论
AI中需要的网络和存储技术
机器人中的数值方法
[SIGCOMM2023] : Offloading
[OSDI2023] Sky Computing