V
主页
推理系统架构和Trition架构介绍;推理、部署、服务化区别;模型生命周期管理【推理系统】系列04篇
发布人
【推理系统】系列04篇:推理系统架构和Trition架构介绍;推理、部署、服务化区别;模型生命周期管理 要了解整体推理系统架构之前需要明确推理、部署、服务化之间的区别和差异,有了基础的概念后,我们会一起深入了解推理系统架构,而推理系统架构又以NVIDIA Trition作为经典架构例子,深入剖析其架构逻辑;最后AI推理系统重,模型生命周期管理尤为重要,因此单独给大家进行汇报。
打开封面
下载高清视频
观看高清视频
视频下载器
云侧和端侧推理方式的特点和区别!【推理系统】系列03篇
推理引擎架构介绍!MNN、TF Lite、TensorRT介绍!【推理系统】系列05篇(上)
QNNPack之间接优化算法【推理引擎】Kernel优化第05篇
Flash Attention原理!数据布局转换与内存优化!【推理引擎】离线优化第04篇
推理引擎架构!MNN、TensorRT架构介绍!【推理系统】系列05篇(下)
知识蒸馏SOTA算法解读!【推理引擎】模型压缩系列第06篇(下)
推理系统和推理引擎的不同之处在哪?【推理系统】系列02篇
模型压缩架构和流程介绍!量化/剪枝/蒸馏/二值化4件套!【推理系统】模型压缩第01篇
计算图优化策略!【推理引擎】离线优化系列第01篇
离线转换模块架构与流程!【推理引擎】离线转换系列第01篇
卷积优化:Winograd算法【推理引擎】Kernel优化第04篇
模型转换技术细节!【推理引擎】离线转换系列第04篇
CNN模型小型化原理!SqueezeNet/ShuffleNet/MobileNet系列介绍!【推理系统】模型小型化第02篇
低比特量化基本原理!【推理引擎】模型压缩系列第02篇
CNN模型小型化算法总结!ESPnet/GhostNet系列介绍!【推理系统】模型小型化第03篇
如何自定义计算图IR?【推理引擎】离线转换系列第03篇
NVIDIA十代GPU架构回顾(从Turning图灵到Hopper赫柏)【AI芯片】GPU架构03
训练后量化PTQ深度解读!与量化部署核心原理!【推理引擎】模型压缩系列第04篇
NVIDIA十代GPU架构回顾(从Fermi费米到Volta伏特)【AI芯片】GPU架构02
为什么AI框架都用计算图?什么是计算图?到底计算图有什么用?【计算图】系列第二篇
OpenAI o1大模型炸了,数学逻辑推导能力堪比博士! #大模型 #OpenAI
知识蒸馏原理介绍!知识从哪里来怎么蒸馏?【推理引擎】模型压缩系列第06篇(上)
什么是推理系统?推理有哪些应用?【推理系统】系列01篇
AI编译器啥架构来着?有多少模块?【AI编译器】系列第三篇
深度学习计算模式是什么?【AI芯片】AI计算体系02
模型剪枝核心原理!模型剪枝算法和流程介绍!Model Pruning深度解析【推理引擎】模型压缩系列第05篇
常量折叠与冗余节点消除优化!计算图优化Details!【推理引擎】离线优化第02篇
从GPU架构发展看AI【AI芯片】芯片基础05
NVIDIA英伟达Tensor Core深度剖析(下)【AI芯片】GPU架构06
卷积优化:卷积操作基础原理!【推理引擎】Kernel优化第02篇
卷积优化:Im2Col算法和组合优化算法【推理引擎】Kernel优化第03篇
GPU硬件架构与CUDA如何对应?【AI芯片】GPU架构01
大模型整体架构、大模型全流程介绍 #大模型 #AI系统
为什么需要AI编译器?跟传统编译器啥关系吗?【AI编译器】系列第一篇
算子融合/算子替换/算子前移优化!【推理引擎】离线优化第03篇
图层IR(Graph IR)是什么?AI编译器如何接收图层IR进行优化呢?【AI编译器】系列之前端优化第02篇
AI编译器架构发展!三个阶段出现的AI编译器有啥区别?【AI编译器】系列第二篇
寒武纪AI芯片第一股,芯片架构解读【AI系统】国产AI芯片
轻量化和大模型的计算模式怎么理解?【AI芯片】AI计算体系03
模型序列化和反序列化原理!【推理引擎】离线转换系列第02篇