Kernel优化架构介绍！【推理引擎】Kernel优化第01篇 - 视频下载 Video Downloader

Kernel优化架构介绍！【推理引擎】Kernel优化第01篇

发布人

【推理引擎】Kernel优化第01篇：Kernel优化架构介绍！

推理引擎中的最最重要的一层，Kernel层承载了针对NPU、CPU、GPU等不同IP后端硬件的算子，或者Kernel实现。而 Kernel 层的优化主要有算法优化、内存优化和汇编优化三种，结合三种优化方式在真正运行之前会有调度优化，现在一起看看Kernel优化架构介绍吧！

打开封面下载高清视频观看高清视频视频下载器

模型压缩架构和流程介绍！量化/剪枝/蒸馏/二值化4件套！【推理系统】模型压缩第01篇

所以kernel到底是什么

离线转换模块架构与流程！【推理引擎】离线转换系列第01篇

CNN模型小型化原理！SqueezeNet/ShuffleNet/MobileNet系列介绍！【推理系统】模型小型化第02篇

什么是推理系统？推理有哪些应用？【推理系统】系列01篇

计算图优化策略！【推理引擎】离线优化系列第01篇

为什么AI训练使用GPU而不是CPU？【AI芯片】GPU原理02

卷积优化：Im2Col算法和组合优化算法【推理引擎】Kernel优化第03篇

模型序列化和反序列化原理！【推理引擎】离线转换系列第02篇

知识蒸馏SOTA算法解读！【推理引擎】模型压缩系列第06篇(下)

推理引擎内存布局方式【推理引擎】Kernel优化第06篇

如何计算模型参数量？什么是FLOPS和MACC？【推理系统】模型小型化第01篇

QNNPack之间接优化算法【推理引擎】Kernel优化第05篇

低比特量化基本原理！【推理引擎】模型压缩系列第02篇

AI芯片涉及哪些知识？【AI芯片】内容简介

推理引擎架构！MNN、TensorRT架构介绍！【推理系统】系列05篇(下)

Flash Attention原理！数据布局转换与内存优化！【推理引擎】离线优化第04篇

卷积优化：卷积操作基础原理！【推理引擎】Kernel优化第02篇

深入GPU原理：线程和缓存关系【AI芯片】GPU原理01

大模型为什么需要微调？有哪些微调方式？#大模型 #微调

分布式训练、分布式集群的基础介绍！【分布式集群】第01篇

ChatGPT狂飙：强化学习RLHF与PPO！【ChatGPT】原理第02篇

推理引擎架构介绍！MNN、TF Lite、TensorRT介绍！【推理系统】系列05篇(上)

算子融合/算子替换/算子前移优化！【推理引擎】离线优化第03篇

推理系统和推理引擎的不同之处在哪？【推理系统】系列02篇

大模型是怎么训起来的？分布式并行框架介绍 #大模型 #分布式并行 #训练

分布式并行策略基础介绍！【分布式并行】系列第01篇

卷积优化：Winograd算法【推理引擎】Kernel优化第04篇

大模型整体架构、大模型全流程介绍 #大模型 #AI系统

向量数据库介绍，Vector和Embedding关系 #大模型 #向量数据库

特斯拉Tesla DOJO芯片架构【AI芯片】NPU详解01

从CPU发展和组成看并行架构！【AI芯片】芯片基础01

如何自定义计算图IR？【推理引擎】离线转换系列第03篇

编译器和解释器啥区别？AOT和JIT啥区别？Pass和IR又是什么？【AI编译器】系列01篇

Transformer轻量化SOTA模型原理！【推理系统】模型小型化第04篇

ChatGPT狂飙：GPT家族详解！【ChatGPT原理】第01篇

为什么大模型都用Transformer结构？ #AIInfra #大模型 #Transformer

AI芯片除硬件本身外，还要关注什么？【AI芯片】黄金十年

NVIDIA英伟达Tensor Core基本原理(上)【AI芯片】GPU架构04

计算图有哪些内容知识？【计算图】系列第一篇