[NSDI 2024] MegaScale：将LLM训练扩展到万级GPU集群 - 视频下载 Video Downloader

京东 11.11 红包

[NSDI 2024] MegaScale：将LLM训练扩展到万级GPU集群

发布人

论文地址：https://www.usenix.org/conference/nsdi24/presentation/jiang-ziheng

打开封面下载高清视频观看高清视频视频下载器

[NSDI 2024] GRACE：通过神经编解码实现抗损的实时视频

[NSDI 2024] Gemino：视频会议中鲁棒及可实操的神经压缩

Ray Summit 2024，Apple弹性GPU资源管理

[NSDI 2024] CASSINI： ML集群中的网络感知job调度

Computer Architecture 2024，Memory Controllers：服务质量和性能 11

Seminar in Computer Architecture 2024，计算机架构的未来 II 和基因组分析 3

[NSDI 2024 THC：tensor同态压缩加速分布式DL训练

[NSDI2023] SelfTune: 集群管理调优

[NSDI 2024] 分布式DL训练中的专有网络

ASPLOS2024上LLM推理服务优化分享

[NSDI2023] TopoOpt: 为DNN训练作业联合优化网络拓扑和并行化策略

[NSDI 2023] ModelKeeper：根据模型相似性自动化预热，进而加速DNN训练

[APNEET2023] 超大规模RDMA：经验和未来方向

ML与程序合成

SIGIR 2024，信息检索发展历程

Training Arctic at Snowflake

ICML 2024 Tutorial，Graph Learning

AMSP：通过模型状态分区进行LLM扩展训练

Seminar in Computer Architecture 2024，基因组分析II和数据驱动的微架构 4

Stanford CS149 并行计算，Cache Coherence 11

AI Hardware

Stanford CS149 并行计算，Hardware Specialization 18

[SIGCOMM2023] ： Offloading

重新思考 Transformer：在结构化矩阵的连续空间上搜索有效的线性层

[NSDI 2024] Parcae: 可抢占实例中主动、liveput优化的DNN训练

通用医学图像分割

Stanford CS149 并行计算，Transactional Memory 16

Stanford EE259: Lidar测距和DOA估计

目标驱动AI: Towards AI systems that can learn, remember, reason, and plan

[RLC 2024] Peter Stone，实用强化学习：30 年研究的经验教训

Supermic，现代数据中心液冷 AI 机架集群方案

通过张量分解进行结构化矩阵近似

[STOC 2024] Avi Wigderson：“Alan Turing： A TCS Role Model”

数字实验室做机器人及模拟机器人开发

Stanford EE364A：Convex Optimization lecture1

DéjàVu: 稀疏上下文的高效LLM推理服务

非稳态环境中的安全RL：理论与算法

Zero Bubble (Almost) Pipeline Parallelism

EI Seminar：如何打造通用机器人

Iceberg Summit 2024主题演讲：The Quiet Revolution