SIGCOMM2024，CacheGen 用于快速模型服务的KV缓存压缩和流式处理 - 视频下载 Video Downloader

SIGCOMM2024，CacheGen 用于快速模型服务的KV缓存压缩和流式处理

发布人

打开封面下载高清视频观看高清视频视频下载器

Groq张量流式处理器架构

TPU V4 and Trends in Accelerator Hardware

NFS v4.2，用于AI架构中高性能和分布式数据处理的linux新标准

AI与3D生成

J.P Fricker解构Blackwell GPU延迟

NVIDIA Spectrum-X Network Platform Architecture

基于意图和故障的轨迹预测，用于协同定位和防碰撞

[MLSys2024] AWQ：用于LLM压缩和加速的激活感知权重量化

RSS2024：用于基于语言机器人导航的层级开放词汇 3D 场景图

从物理互动中学习结构化世界模型

阿里大规模计算集群网络稳定性的挑战与实践

自旋电子器件用于能效计算

编译器的黄金时代

Computer Architecture 2024，Memory Controllers：服务质量和性能 11

物理视角看GNN

ICML2024 Tutorial，Machine Learning on Function spaces

RLOO，新的在线RLHF训练算法

MuxServe：灵活的多路复用实现高效的多个LLM服务

ICRA2024 LHMP研讨会：Isn't Motion Prediction just Model-based RL?

Andrej Karpathy，llm.c开发历程

[RLC 2024] Peter Stone，实用强化学习：30 年研究的经验教训

Ray Summit 2024，The State of vLLM

Paint-it：文本纹理生成

通用机器人路径思考：scaling law、数据飞轮和具身智能

Stanford EE259：镜头、图像传感器、图像信号处理

[NSDI2023] Tambur: 通过流式编码对视频会议进行高效损失修复

GPU.x：GPU共享

机器人中的数值方法

Noam Brown，通过self-play学习合作和竞争

Stanford CS234 Reinforcement Learning，RLHF&DPO

机器人学习中的收缩理论

Slaying OOMs with PyTorch FSDP and torchao

家庭通用机器人

Dynamics on Neural Networks

利用结构实现高效灵活的机器人接触操作

Mamba和S4解读：架构、并行扫描、内核融合、循环、卷积、数学

Ray Summit 2024，Llama 1->3发展路径

重新思考 Transformer：在结构化矩阵的连续空间上搜索有效的线性层

Yejin Choi: 如何让小模型work

非稳态环境中的安全RL：理论与算法