V
主页
llama.cpp 源码解析-- CUDA版本流程与逐算子详解
发布人
以Llama 2模型结构中单个Transformer Block为例逐算子分析所调用的CUDA Kernel ,所以在看本视频之前需要先了解CUDA编程和模型量化,欢迎关注知乎/微信公众号CodeLearner
打开封面
下载高清视频
观看高清视频
视频下载器
【大模型工程基本功】asyncio+uvicorn+fastapi+threadpool
[C++与深度学习框架] 模板推导再炫技: 统一各个芯片device各个算子的调用和分发机制
llama3-04 使用llama.cpp进行llama3模型的量化和部署
大模型本地部署介绍---vllm和llama.cpp
CUDA如何手撸transpose转置算子--每日一个C++/AI知识点
AI推理优化视角解读LLaMA模型结构和源代码
大模型加速框架哪家强?vllm,lightllm,tensorrt-llm,llama.cpp?
Llama 2 模型结构解析
大模型修炼之道(三): Llama系列讲解 Llama1,Llama2, Llama3
主流开源大模型LLama基本架构 KV-Cache, Rotary Positional Embedding, RMS Norm, Grouped Query
NVIDIA AI 加速精讲堂-TensorRT-LLM量化原理、实现与优化
【大模型量化】llama.cpp轻量化模型部署及量化
transformers源码阅读——入门(提高nlp工程师的工程能力)
案例实战-17-llama.cpp量化模型API服务部署
03_多模态_基于llama.cpp进行模型量化和推理
【大模型学习路径】LLM知识点及面试相关
1万小时cuda挑战
NV架构师讲解CUDA是如何工作的?(英文原版)
【并行计算】CUDA在现代C++中如何运用?看这一个就够了!
【CUDA进阶】深入理解 Nsight System 和 Nsight Compute
图解llama架构 解读源码实现
【昇腾Ascend C算子开发-入门课程】新手零基础入门
神经网络-量化与部署,进阶之路迟早要越过的大山
Cuda从零学-秋招转行拿高薪-从零自制大模型推理框架
自制大模型推理框架-使用Nsight compute对Cuda算子调优
[LLMs 实践] 01 llama、alpaca、vicuna 整体介绍及 llama 推理过程
【大模型部署】Ollama部署Qwen2及llama.cpp补充
CPU 时间是如何耗费在 llama.cpp 程序和 LLaMA2 模型内部的(使用 OpenResty XRay)(中文解说)
Pytorch+cpp_cuda 入门课程
cuda实现规约算法和softmax开发
19、Transformer模型Encoder原理精讲及其PyTorch逐行实现
CUDA实现矩阵乘法的8种优化策略编程介绍
异构并行编程(伊利诺伊大学:胡文美教授)- 重点讲解CUDA编程
CUDA编程是如何工作的:NVIDIA官方经典
设备驱动程序 (Linux 设备驱动; GPU 和 CUDA; 存储设备抽象) [南京大学2022操作系统-P25]
【大模型微调】使用Llama Factory实现中文llama3微调
bitnet.cpp 推理,速度超越 llama.cpp,内存最高降低 16 倍 | 附 BitNet b1.58 模型安装演示
算子融合/算子替换/算子前移优化!【推理引擎】离线优化第03篇
并行计算(CUDA编程)
【珍藏】从头开始用代码构建GPT - 大神Andrej Karpathy 的“神经网络从Zero到Hero 系列”之七