V
主页
编译器为什么要对数据布局转换呢 Layout Transformations?【AI编译器】系列之前端优化第04篇(上)
发布人
【AI编译器】系列之前端优化第04篇(上):编译器为什么要对数据布局转换呢? Data layout transformations 将内部数据布局转换为后端设备友好的形式,是AI编译器的前端一个很重要的Pass。对于计算图中的一个tensor有多种方法存储,比如行主序和列主序。如果学过计算机系统的话,一个重要的概念就是存储金字塔结构。在实际应用中多种多样的设备情况下更为复杂,如何存储数据的选择呈指数级上升。今天给大家汇报一下编译器为什么要对数据布局转换。
打开封面
下载高清视频
观看高清视频
视频下载器
GPU硬件架构与CUDA如何对应?【AI芯片】GPU架构01
编译器和解释器啥区别?AOT和JIT啥区别?Pass和IR又是什么?【AI编译器】系列01篇
LLVM IR详解!LLVM编译器的核心理念来啦!【AI编译器】系列第五篇(上)
推理系统架构和Trition架构介绍!【推理系统】系列04篇
QNNPack之间接优化算法【推理引擎】Kernel优化第05篇
LLVM后端代码生成!了解下基于LLVM的项目!【AI编译器】系列第五篇(下)
计算图跟微分什么关系?怎么用计算图表示自动微分?AI框架自动微分如何通过计算图来实现?【计算图】系列第三篇
推理引擎架构介绍!MNN、TF Lite、TensorRT介绍!【推理系统】系列05篇(上)
LLVM编译器前端和优化层了解下?词法语法分析、Pass优化都在这!【AI编译器】系列第五篇(中)
GCC编译过程!优缺点是啥?手把手用GCC编译一个小程序【AI编译器】系列第三篇
LLVM架构了解下?为什么LLVM这么火?一起初体验实操LLVM【AI编译器】系列第四篇
AI框架如何实现分布式训练?SISD和SIMT又是什么?【分布式集群】系列第05篇
NVIDIA十代GPU架构回顾(从Turning图灵到Hopper赫柏)【AI芯片】GPU架构03
设计AI芯片需要关注什么指标?【AI芯片】AI计算体系04
卷积优化:Im2Col算法和组合优化算法【推理引擎】Kernel优化第03篇
卷积优化:Winograd算法【推理引擎】Kernel优化第04篇
NVIDIA英伟达Tensor Core深度剖析(下)【AI芯片】GPU架构06
感知量化训练QAT原理!伪量化节点计算方式!【推理引擎】模型压缩系列第03篇
AI集群的软硬件通信:从硬件PCIE、NVLINK、RDMA原理到通信NCCL、MPI原理!【分布式集群】系列第03篇
AI编译器内存优化算法!动态内存和静态内存区别!【AI编译器】前端优化第05篇
深度学习计算模式是什么?【AI芯片】AI计算体系02
大模型算法有哪种结构?怎么样才算大模型呢?从Transformer和MOE结构看大模型发展!【分布式算法】系列第02篇
PyTorch数据并行怎么实现?DP、DDP、FSDP数据并行原理?【分布式并行】系列第02篇
大模型是什么?大模型有什么用?训练大模型会遇到哪些挑战?【分布式算法】第01篇
离线转换模块架构与流程!【推理引擎】离线转换系列第01篇
AI芯片主要计算方式:矩阵运算【AI芯片】AI计算体系05
int8/fp16/bf16/tf32在AI芯片中什么作用?【AI芯片】AI计算体系06
亲自撸一个正向自动微分的AI框架!【自动微分】系列第五篇
为什么AI训练使用GPU而不是CPU?【AI芯片】GPU原理02
AI编译器的前端优化/图优化Pass的顺序怎么排?【AI编译器】系列之前端优化第10篇
大模型整体架构、大模型全流程介绍 #大模型 #AI系统
NVIDIA英伟达Tensor Core架构发展(中)【AI芯片】GPU架构05
Flash Attention原理!数据布局转换与内存优化!【推理引擎】离线优化第04篇
AI集群用什么服务器架构?Ring All Reduce算法跟物理网络啥关系?【分布式集群】系列第02篇
数据的存储类型和方式(块存储/文件存储/对象存储) #大模型 #AI系统 #数据存储 #AI集群
大模型训练的存储优化方案(下) #大模型 #AI系统 #数据存储 #AI集群
GCC和LLVM发家历史?两大开源编译器的爱恨情仇【AI编译器】系列第二篇
计算图优化策略!【推理引擎】离线优化系列第01篇
Transformer轻量化SOTA模型原理!【推理系统】模型小型化第04篇
如何自定义计算图IR?【推理引擎】离线转换系列第03篇