V
主页
加速国产GPU开发!摩尔线程开源高性能计算库MUTLASS:更高效!
发布人
MUTLASS开源地址: https://github.com/MooreThreads/mutlass 日前,摩尔线程官方已经正式宣布,正式开源高性能线性代数模板库MUTLASS,以便开发者能够更高效地针对摩尔线程GPU MUSA Core、Tensor Core等单元进行编程,加速基于国产GPU的算子开发以及算法创新。 而在此之前,摩尔线程已经相继开源了OpenCV-MUSA计算机视觉库、MooER音频理解大模型、vLLM-MUSA大语言模型高速推理框架。 据我们了解,在数值计算和深度学习领域,矩阵乘法(GEMM)及其变种,比如FlashAttention、Convolution,是构建复杂上层应用的基石。 不过,为了追求更高的算子融合效率或者更创新的算法,开发者们往往都需要超越标准化计算接口的限制,如标准BLAS接口、芯片厂商的计算库接口,以实现高性能的定制化算子。 而MUTLASS(MUSA Templates for Linear Algebra Subroutines)正是为满足这一需求而设计。 作为摩尔线程专为自研MUSA架构优化的高性能计算库,MUTLASS是基于开源模板库CUTLASS进行的MUSA适配和定制化开发、优化。 针对矩阵乘法及相关变种,MUTLASS提供了一系列高性能的C++模板组件,并采用了与muDNN库类似的分层分解及数据搬运策略,以确保性能的充分发挥。 另值得一提的是,在本次开源的版本中,摩尔线程还适配了CuTe后端库,为其增加了第三代MUSA架构的MMA计算原语,支持TF32/FP16/BF16/INT8等多种数据精度。并以此为基础,初步实现了矩阵乘法、默认实例库、性能测试器及相关工具包的支持。 借助MUTLASS,开发者们既可以灵活复用不同层级的模板组件,也可以按需修改各种模板组件的实现细节,以较低的开发成本实现定制化的高性能算子,从而在摩尔线程全功能GPU上充分释放性能,并尝试更多的算法创新。 此外,未来摩尔线程也将持续优化MUTLASS的性能,并不断引入新的功能。
打开封面
下载高清视频
观看高清视频
视频下载器
国产GPU独角兽来了!摩尔线程概念“爆发”
【显卡日报】国产显卡摩尔线程准备上市
加速替代CUDA!摩尔线程正式开源vLLM-MUSA:国产GPU推理性能飙升!
摩尔线程玩黑神话
神预测网易模组价格上调,网易我的世界所有玩家天彻底黑了。中国版我的世界名存实亡
一文讲清楚CUDA
摩尔线程MTT S80 游戏实测DX12
使用国产显卡玩戴森球直接发射黑洞
摩尔线程官方送的包到啦!
国产游戏GPU第一卡、唯一DX12!摩尔线程终于要上市了!
摩尔线程MTTS80 养成系国潮显卡?能打过神卡RX580?
摩尔线程和寒武纪是竞争关系吗?
摩尔线程dx12运行黑神话
摩尔线程S80使用最新驱动270.90玩原神帧率如何
国产SSD继续杀价!致态Ti600开售:1TB 399元!
【270.80.2】MTT S80挑战4k画质下的只狼
摩尔线程概念股有哪些?
[逆速看]摩尔线程S80,从DX12开始到无穷远
【ChatGPT4.0手机版】国内无需魔法,无限次数使用教程来了!
大型纪录片《中式教育塌房了》持续为你播出!!!!!!!!!!
【开源】YuEEG:我居然在研三做出了脑机接口设备?
大增33.6%超越戴尔!华为首次拿下全闪存全球份额第一
【270.90】摩尔线程MTT S80 DX11/12测试对比 50%超分 最低画质
你这雷军确实是AI啊
在摩尔线程原生驱动上进行Llama.cpp的推理(没有使用vulkan)
我应该是第一个用国产显卡通关《黑神话:悟空》的天命人
只卖999的国产显卡,迎来DX12重磅升级!摩尔线程MTTS70复测【如舟】爱国者扶摇千里机箱、星璨EV850装机
这字可也是中国🇨🇳的汉字!
【异常录】难以解释的行为,AI是否已诞生灵智?
怪不得战恐局和战忽局能同时存在
马斯克表示让人民保留更多辛苦赚来的钱!
我的机器人火了,大家都在问他有没有“意识”?
【摩尔线程S80】红色警戒2
摩尔线程MTT S80运行战争机器5
【国产显卡】摩尔线程S80,《死寂》高速公路,另混音一版那个APT。
“杀死”伪基站,安卓系统新功能曝光,2G时代即将被终结!
兔子玩「阳谋」有多牛?
【日本RVC变声器】11.15号小白直装!无需声卡!0延迟!支持ios+安卓pc端!人工智能变声器AI,任何强到怀疑人生!永久免费白嫖
反向虚标被赞良心!华为新平板官宣22.5W快充:用户实测轻松上66W!
【国产显卡】摩尔线程S80,沿用内测驱动,浅试“生化危机2重制版”。