V
主页
京东 11.11 红包
Coop——动态图重计算策略和显存分配机制的联合优化
发布人
演讲主题: Coop —— 动态图重计算策略和显存分配机制的联合优化 演讲者: 张建浩 一流科技 框架开发工程师 演讲提纲: 动态图重计算(DTR)技术为使用 PyTorch 等动态图框架的炼丹师提供了在有限显存容量下训练大规模模型的方法,它在运行时舍弃一部分中间特征,并在需要时重新计算,也就是以计算换显存。然而已有的 DTR 方法都是以一种“循环释放 cost 最小的 tensor 直到显存申请成功”的方式实现,忽视了对空闲显存的连续性要求,带来了非最优的决策和额外的重计算开销。我们提出了 Coop 技术,通过对重计算策略和显存分配机制的联合优化,解决了上述的连续性问题,同时进一步提升了重计算的效果。根据实验 Coop 在多个经典网络上都取得了大大优于已有的 DTR 方法的效果,如对 ResNet-50 和 BERT 模型,Coop 可以在只引入 10% 额外计算量的情况下节省近 50% 的显存占用量。 听众收益: 1. 如何在显存有限的设备上训练大模型? 2. 为什么已有的动态图重计算方法是有缺陷的? 3. 怎么样通过和显存分配机制的联合优化来提升重计算的效果?
打开封面
下载高清视频
观看高清视频
视频下载器
袁进辉:零代码改动,加速AIGC
3-大语言模型的推理
OneFlow线上讨论 I Part3-Eager性能优化20200803
2-大语言模型的训练
Day1-P1-什么是深度学习
苏学睿:Res-EnDe-LSTM时序数据预测
LiBai:开源大规模预训练模型库及开发实践
2024最火的两个模型:Informer+LSTM两大时间序列预测模型,论文精读+代码复现,通俗易懂!——人工智能|AI|机器学习|深度学习
袁进辉: 如何让大规模深度学习变得更容易
Day2-P2-将模型转为 ONNX 格式
Day1-P3-云平台项目的使用、ssh配置、vscode配置
OneFlow技术分享会00-OneFlow源码分享会
关于我只用两个月就结合AI发了SCI1区论文——经验分享和本人案例
这位在Github上的大神真他吖的是个天才!写的代码简直就是教科书的存在,几乎能搞定所有入门Pytorch的代码难题!——人工智能/机器学习/深度学习
人工智能经典论文解读之计算机视觉(一)alexnet
Day3-P2-app 架构解读+flask实现后端
AI的核心价值是什么?AI如何做到普惠化?——看袁进辉博士如何思考AI的未来之路
【yolov8】一小时掌握!从0开始搭建部署YOLOv8,环境安装+推理+自定义数据集搭建与训练,入门到精通!
Day1-P2-LeNet互动式课程介绍
0x01_目标检测基本任务介绍
Day3-P1-手机拍照分类垃圾效果展示
2.2 分布式并行策略
人工智能经典论文解读之AI For Science
人工智能经典论文解读之计算机视觉(三)图像生成泛读
【OneFlow公开课】InsightFace 从青铜到王者,超大规模人脸识别的优雅解法
OneFlow技术分享会05-nn.Graph的编译
OneFlow线上讨论 I Part2-Eager设计20200803
1.FlowVision简介
【对新手超级友好】三小时深度学习PyTorch快速入门教程,包教包会!!——人工智能|机器学习|深度学习
OneFlow技术分享会03-eager-vm
超全超简单!一口气刷完CNN、RNN、GAN、GNN、DQN、Transformer、LSTM、DBN等八大深度学习神经网络算法!真的比刷剧还爽!
为什么我们需要重新设计分布式深度学习框架?——袁进辉博士在智源大会上的演讲
OpenAI 团队重磅揭晓:下一步的大动作是什么?
为大规模分布式而生的深度学习框架OneFlow
Day3-P3-基于vant+axios实现的前端
2.1 分布式深度学习引言
一口气学完回归算法、聚类算法、决策树、随机森林、神经网络、贝叶斯算法、支持向量机、神经网络等十二大机器学习算法!通俗易懂
YOLO最新版本V11 本地一键部署 解压即用 视觉检测大模型尝鲜版 集成环境依赖 WEBUI可视化界面
【YOLOv11】实测!对比YOLOv8、v9、v10,是否实用?哪个更适合结合自己的业务场景?
Day2-P1-垃圾分类迁移学习代码解读