V
主页
llama.cpp 源码解析-- CUDA版本流程与逐算子详解
发布人
以Llama 2模型结构中单个Transformer Block为例逐算子分析所调用的CUDA Kernel ,所以在看本视频之前需要先了解CUDA编程和模型量化,欢迎关注知乎/微信公众号CodeLearner
打开封面
下载高清视频
观看高清视频
视频下载器
【大模型量化】- Llama.cpp轻量化模型部署及量化
【昇腾Ascend C算子开发-入门课程】新手零基础入门
吴恩达最新《面向每个人的生成式AI》Generative AI for Everyone(中英字幕)
【大模型部署】- Ollama部署Qwen2及llama.cpp补充
Llama 2 模型结构解析
第十五课:LLaMA
大模型量化一网打尽(一)理论基础
鲨疯了!最适合新手入门的【LLM医疗大模型】教程:医疗大模型LLM应用现状及如何微调一个医疗大模型?我竟然一天就搞懂了!
【搬运】GPU并行编程课程(CUDA编程)
【昇腾Ascend C算子开发-进阶课程】全面掌握算子开发/编译部署/调试/调用
强推!这绝对是目前B站最好的【LLM医疗大模型】教程,AI大佬精细讲解LLM医疗大模型从应用现状到模型微调技术,全程干货无废话!
1. LLM 模型和理论基础
llama3-04 使用llama.cpp进行llama3模型的量化和部署
CUDA编程基础入门系列(持续更新)
Transformer终于有拿得出手得教程了! 台大李宏毅自注意力机制和Transformer详解!通俗易懂,草履虫都学的会!
Pytorch+cpp_cuda 入门课程
异构并行编程(伊利诺伊大学:胡文美教授)- 重点讲解CUDA编程
【CUDA进阶】深入理解 Nsight System 和 Nsight Compute
大语言模型推理加速
英伟达/橡树岭国家实验室 CUDA编程系列
NVIDIA CUDA初级教程视频
深度学习之模型优化—理论实践篇(搞定模型剪枝量化蒸馏神经网络搜索,这一门课就够了)
cuda 大师班
强烈推荐!台大李宏毅自注意力机制和Transformer详解!
NV架构师讲解GPU是如何工作的?
transformers源码阅读——如何看懂模型代码(以llama为例)
GPU并行计算与CUDA编程
Transformer从零详细解读(可能是你见过最通俗易懂的讲解)
吹爆!2024最详细的大模型学习路线整理出来啦!迪哥手把手教你最高效的大模型学习方法,轻松搞定AIGC大模型!(大模型训练/大模型微调)
【合集】Llama3本地部署与中文能力微调实战|零门槛零基础部署Llama3大模型|借助Llama-Factory进行高效微调
初学CUDA编程讲的最清楚的一个视频
经典 CUDA C/C++人工智能教程(AI&机器学习&HPC&科学仿真)
【视频课件资料见置顶评论】深度学习入门必学丨神经网络基础丨卷积神经网络丨循环神经网络
大模型微调数据构造(补充课程)
CUDA 编程入门
北大未名超算队 高性能计算入门讲座(七):CPU和GPU上的性能分析
CUDA Python 科普之夜 | 手把手教你写GPU加速代码
基于ARM平台(Jetson)的CUDA编程入门
AI推理优化视角解读LLaMA模型结构和源代码
吴恩达大模型【Langchain-ChatGLM】已开源!手把手带你实现:大模型预训练和模型微调,我1小时就学会了!