V
主页
Kernel优化架构介绍!【推理引擎】Kernel优化第01篇
发布人
【推理引擎】Kernel优化第01篇:Kernel优化架构介绍! 推理引擎中的最最重要的一层,Kernel层承载了针对NPU、CPU、GPU等不同IP后端硬件的算子,或者Kernel实现。而 Kernel 层的优化主要有算法优化、内存优化和汇编优化三种,结合三种优化方式在真正运行之前会有调度优化,现在一起看看Kernel优化架构介绍吧!
打开封面
下载高清视频
观看高清视频
视频下载器
模型压缩架构和流程介绍!量化/剪枝/蒸馏/二值化4件套!【推理系统】模型压缩第01篇
所以kernel到底是什么
离线转换模块架构与流程!【推理引擎】离线转换系列第01篇
CNN模型小型化原理!SqueezeNet/ShuffleNet/MobileNet系列介绍!【推理系统】模型小型化第02篇
什么是推理系统?推理有哪些应用?【推理系统】系列01篇
计算图优化策略!【推理引擎】离线优化系列第01篇
为什么AI训练使用GPU而不是CPU?【AI芯片】GPU原理02
卷积优化:Im2Col算法和组合优化算法【推理引擎】Kernel优化第03篇
模型序列化和反序列化原理!【推理引擎】离线转换系列第02篇
知识蒸馏SOTA算法解读!【推理引擎】模型压缩系列第06篇(下)
推理引擎内存布局方式【推理引擎】Kernel优化第06篇
如何计算模型参数量?什么是FLOPS和MACC?【推理系统】模型小型化第01篇
QNNPack之间接优化算法【推理引擎】Kernel优化第05篇
低比特量化基本原理!【推理引擎】模型压缩系列第02篇
AI芯片涉及哪些知识?【AI芯片】内容简介
推理引擎架构!MNN、TensorRT架构介绍!【推理系统】系列05篇(下)
Flash Attention原理!数据布局转换与内存优化!【推理引擎】离线优化第04篇
卷积优化:卷积操作基础原理!【推理引擎】Kernel优化第02篇
深入GPU原理:线程和缓存关系【AI芯片】GPU原理01
大模型为什么需要微调?有哪些微调方式?#大模型 #微调
分布式训练、分布式集群的基础介绍!【分布式集群】第01篇
ChatGPT狂飙:强化学习RLHF与PPO!【ChatGPT】原理第02篇
推理引擎架构介绍!MNN、TF Lite、TensorRT介绍!【推理系统】系列05篇(上)
算子融合/算子替换/算子前移优化!【推理引擎】离线优化第03篇
推理系统和推理引擎的不同之处在哪?【推理系统】系列02篇
大模型是怎么训起来的?分布式并行框架介绍 #大模型 #分布式并行 #训练
分布式并行策略基础介绍!【分布式并行】系列第01篇
卷积优化:Winograd算法【推理引擎】Kernel优化第04篇
大模型整体架构、大模型全流程介绍 #大模型 #AI系统
向量数据库介绍,Vector和Embedding关系 #大模型 #向量数据库
特斯拉Tesla DOJO芯片架构【AI芯片】NPU详解01
从CPU发展和组成看并行架构!【AI芯片】芯片基础01
如何自定义计算图IR?【推理引擎】离线转换系列第03篇
编译器和解释器啥区别?AOT和JIT啥区别?Pass和IR又是什么?【AI编译器】系列01篇
Transformer轻量化SOTA模型原理!【推理系统】模型小型化第04篇
ChatGPT狂飙:GPT家族详解!【ChatGPT原理】第01篇
为什么大模型都用Transformer结构? #AIInfra #大模型 #Transformer
AI芯片除硬件本身外,还要关注什么?【AI芯片】黄金十年
NVIDIA英伟达Tensor Core基本原理(上)【AI芯片】GPU架构04
计算图有哪些内容知识?【计算图】系列第一篇