AMSP：通过模型状态分区进行LLM扩展训练 - 视频下载 Video Downloader

AMSP：通过模型状态分区进行LLM扩展训练

发布人

打开封面下载高清视频观看高清视频视频下载器

字节万级GPU集群LLM训练

可扩展且高效的大模型系统

LLMs视角看差分隐私

ChatGPT发布1年半后，LLMs开源生态

LLMs中的语言理解

Centauri：通过通信分区实现大型模型训练中通信计算重叠的高效调度

可扩展的 MatMul-free

LOTUS: 通过无监督技能发现进行机器人操作的连续模仿学习

ASPLOS2024上LLM推理服务优化分享

如何选择合适的开源LLMs

智能机器人中的物理模型

[APNEET2023] 超大规模RDMA：经验和未来方向

[NSDI 2023] ModelKeeper：根据模型相似性自动化预热，进而加速DNN训练

通过语言、逻辑和YouTube视频数据实现长期操作的可扩展机器人学习

[NSDI2023] 数据中心网络中可扩展长尾延迟预估

SIGCOMM2024：阿里云HPN 7.0，用于大模型训练的数据中心网络

AI Hardware

通过扩散策略进行机器人灵活操作

Aligning LLMs with Direct Preference Optimization

MuxServe：灵活的多路复用实现高效的多个LLM服务

针对AI工作负载优化的存储架构

Computing and Planning with LLMs

[NSDI2023] 使用自适应帧速率实现高质量实时通信(RTC)

机器人泛化学习

机器人可达性研究

[OSDI2023] SEPH: 在持久内存上实现可扩展、高效和可预测的哈希检索

[NSDI 2024 THC：tensor同态压缩加速分布式DL训练

通过学习规划和感知进行任务和运动规划

Groq LPU

AI中需要的网络和存储技术

在线ML边缘侧应用

Mamba和S4解读：架构、并行扫描、内核融合、循环、卷积、数学

[NSDI 2024] CASSINI： ML集群中的网络感知job调度

Groq张量流式处理器架构

[NSDI2023] TopoOpt: 为DNN训练作业联合优化网络拓扑和并行化策略

固态硬盘安装和分区教程

2D到3D生成

边缘云端高效的LLM推理

云端LLM生命周期管理

[NSDI 2024] Parcae: 可抢占实例中主动、liveput优化的DNN训练