V
主页
AMSP:通过模型状态分区进行LLM扩展训练
发布人
打开封面
下载高清视频
观看高清视频
视频下载器
字节万级GPU集群LLM训练
可扩展且高效的大模型系统
LLMs视角看差分隐私
ChatGPT发布1年半后,LLMs开源生态
LLMs中的语言理解
Centauri:通过通信分区实现大型模型训练中通信计算重叠的高效调度
可扩展的 MatMul-free
LOTUS: 通过无监督技能发现进行机器人操作的连续模仿学习
ASPLOS2024上LLM推理服务优化分享
如何选择合适的开源LLMs
智能机器人中的物理模型
[APNEET2023] 超大规模RDMA:经验和未来方向
[NSDI 2023] ModelKeeper:根据模型相似性自动化预热,进而加速DNN训练
通过语言、逻辑和YouTube视频数据实现长期操作的可扩展机器人学习
[NSDI2023] 数据中心网络中可扩展长尾延迟预估
SIGCOMM2024:阿里云HPN 7.0,用于大模型训练的数据中心网络
AI Hardware
通过扩散策略进行机器人灵活操作
Aligning LLMs with Direct Preference Optimization
MuxServe:灵活的多路复用实现高效的多个LLM服务
针对AI工作负载优化的存储架构
Computing and Planning with LLMs
[NSDI2023] 使用自适应帧速率实现高质量实时通信(RTC)
机器人泛化学习
机器人可达性研究
[OSDI2023] SEPH: 在持久内存上实现可扩展、高效和可预测的哈希检索
[NSDI 2024 THC:tensor同态压缩加速分布式DL训练
通过学习规划和感知进行任务和运动规划
Groq LPU
AI中需要的网络和存储技术
在线ML边缘侧应用
Mamba和S4解读:架构、并行扫描、内核融合、循环、卷积、数学
[NSDI 2024] CASSINI: ML集群中的网络感知job调度
Groq张量流式处理器架构
[NSDI2023] TopoOpt: 为DNN训练作业联合优化网络拓扑和并行化策略
固态硬盘安装和分区教程
2D到3D生成
边缘云端高效的LLM推理
云端LLM生命周期管理
[NSDI 2024] Parcae: 可抢占实例中主动、liveput优化的DNN训练