[NSDI2023] FLASH：一套为联邦学习设计的高性能硬件加速架构 - 视频下载 Video Downloader

[NSDI2023] FLASH：一套为联邦学习设计的高性能硬件加速架构

发布人

https://www.youtube.com/watch?v=I5V3r-8sY-Y

打开封面下载高清视频观看高清视频视频下载器

Mamba和S4解读：架构、并行扫描、内核融合、循环、卷积、数学

[NSDI2023] TopoOpt: 为DNN训练作业联合优化网络拓扑和并行化策略

[NSDI 2023] ModelKeeper：根据模型相似性自动化预热，进而加速DNN训练

[NSDI2023] Gemel: 边缘端基于模型合并方法的内存高效，实时视频分析

[NSDI2023] Boggart: 加速回顾型视频分析

在线ML边缘侧应用

[NSDI2023] Fluxion: 分布式系统中预测端到端延迟的模块化学习

字节万级GPU集群LLM训练

[NSDI 2024 THC：tensor同态压缩加速分布式DL训练

[HOTI2023] 高性能ML,DL,数据科学的原则和实践

Stanford EE259 惯性传感器：加速度计的工作原理与架构

[NSDI2023] 数据中心网络中可扩展长尾延迟预估

Groq张量流式处理器架构

机器人泛化学习

GPU加速

[NSDI2023] Tambur: 通过流式编码对视频会议进行高效损失修复

[NSDI2023] 使用自适应帧速率实现高质量实时通信(RTC)

[NSDI2023] SelfTune: 集群管理调优

[NSDI 2024] DISTMM：加速多模态模型训练

[OSDI2023] Flor: 一个在异构RNICs上的开放高性能RDMA框架

[NSDI2023] CausalSim: 无偏trace-driven模拟的因果框架

[Stanford Seminar] 设计下一代自动驾驶技术栈架构

[NSDI 2024] CASSINI： ML集群中的网络感知job调度

[APNEET2023] 超大规模RDMA：经验和未来方向

基于FPGA的DL加速的高效计算内存架构

冲撞感知操控：利用有意碰撞加速任务执行

GKE上如何利用TPUs加速机器学习负载

[NSDI 2024] GRACE：通过神经编解码实现抗损的实时视频

加速数据科学：为pandas、NetworkX和Spark MLlib提供GPU加速

走向一个ML优化加速的大一统理论

针对AI工作负载优化的存储架构

GRASP on Robotics: 复杂网络的统一理论架构

Berkeley EECS研讨会讨论：Future of Robotics

CSAIL 几何深度学习：从欧几里得到药物设计

通用医学图像分割

机器人空间感知基础

[MLSys2024] AWQ：用于LLM压缩和加速的激活感知权重量化

下一代机器人感知：3D场景图，可验证算法，自监督学习

ChatGPT发布1年半后，LLMs开源生态

神经场在机器人操作中的应用