【大模型量化】- Llama.cpp轻量化模型部署及量化

发布人

🚵‍♀️ 使用Llama.cpp实现gguf模型的轻量化部署及量化。
🎮 相关代码和数据：https://github.com/echonoshy/cgft-llm

打开封面下载高清视频观看高清视频视频下载器

llama.cpp 源码解析-- CUDA版本流程与逐算子详解

大模型量化一网打尽（一）理论基础

bitnet.cpp 推理，速度超越 llama.cpp，内存最高降低 16 倍 | 附 BitNet b1.58 模型安装演示

如何使用Ollama运行非Ollama官方仓库的大模型，以及llama quantize.exe执行命令演示！

神经网络-量化与部署，进阶之路迟早要越过的大山

第二十课：MoE

大模型量化部署解析当前应用较广的几种量化部署方案！

llama3-06 基于llama-factory和自定义数据集进行模型微调

【大模型微调】使用Llama Factory实现中文llama3微调

llama3-04 使用llama.cpp进行llama3模型的量化和部署

llama.cpp大神实现投机采样，让大模型推理性能直接翻倍 #小工蚁

大语言模型量化简介

llamafactory大模型微调llama.cpp量化gguf模型中转ollama微调量化后推理调用llamafactory本地windows部署报错解决方案

大模型操作 | 开源模型的量化，GGUF格式转换，Ollama识别

用 300 元的显卡推理 Qwen1.5-14B 效果展示

模型转化 + 模型量化（从 safetensors 到 ollama）这里有详细的步骤哦

大模型加速框架哪家强？vllm，lightllm，tensorrt-llm，llama.cpp?

大模型瘦身技术 GGUF和GPTQ

CPU反超NPU，llama.cpp生成速度翻5倍！ LLM端侧部署新范式T-MAC开源

都发布一个月了【还不会微调Llama3吗】！迪哥十分钟带你微调-量化-部署-应用一条龙解读！草履虫都能学会！！！

大模型量化是怎么实现的——transformers源码解读

Ollama 支持的 flash attention 能提升推理速度吗？我们一起测测看吧

大模型本地部署介绍---vllm和llama.cpp

最新开源的Llama3.1大模型能否在Android上运行？Yes！

图解llama架构解读源码实现

【大模型RAG】Graph RAG介绍及ollama本地部署

CPU 时间是如何耗费在 llama.cpp 程序和 LLaMA2 模型内部的（使用 OpenResty XRay）（中文解说）

详解TensorRT的C++/Python高性能部署，实战应用到项目

使用Llama.cpp在摩尔线程S80上进行通义千问7b模型推理

Llama 2 模型结构解析

llama_cpp的pc端部署

无门槛人人可用. llama.cpp现已进入chatGPT Box自定义模型支持列表

本地语言模型个人推荐

第十五课：LLaMA

ollama vs vllm - 开启并发之后的 ollama 和 vllm 相比怎么样？

模型量化六：QLoRA 4bit 量化 NormalFloat4 量化

【大模型部署】Ollama部署Qwen2及llama.cpp补充

LlamaFactory:微调QWe (千问)模型简单微调多数模型的便捷方法

03_多模态_基于llama.cpp进行模型量化和推理

1700多种开源大模型随意部署！一键本地搭建大模型+知识库，不挑环境、不挑配置

【大模型量化】- Llama.cpp轻量化模型部署及量化

llama.cpp 源码解析-- CUDA版本流程与逐算子详解

大模型量化一网打尽（一）理论基础

bitnet.cpp 推理，速度超越 llama.cpp，内存最高降低 16 倍 | 附 BitNet b1.58 模型安装演示

如何使用Ollama运行非Ollama官方仓库的大模型，以及llama quantize.exe执行命令演示！

神经网络-量化与部署，进阶之路迟早要越过的大山

第二十课：MoE

大模型量化部署 解析当前应用较广的几种量化部署方案！

llama3-06 基于llama-factory和自定义数据集进行模型微调

【大模型微调】使用Llama Factory实现中文llama3微调

llama3-04 使用llama.cpp进行llama3模型的量化和部署

llama.cpp大神实现投机采样，让大模型推理性能直接翻倍 #小工蚁

大语言模型量化简介

llamafactory大模型微调llama.cpp量化gguf模型中转ollama微调量化后推理调用llamafactory本地windows部署报错解决方案

大模型操作 | 开源模型的量化，GGUF格式转换，Ollama识别

用 300 元的显卡推理 Qwen1.5-14B 效果展示

模型转化 + 模型量化（从 safetensors 到 ollama）这里有详细的步骤哦

大模型加速框架哪家强？vllm，lightllm，tensorrt-llm，llama.cpp?

大模型瘦身技术 GGUF和GPTQ

CPU反超NPU，llama.cpp生成速度翻5倍！ LLM端侧部署新范式T-MAC开源

都发布一个月了【还不会微调Llama3吗】！迪哥十分钟带你微调-量化-部署-应用一条龙解读！草履虫都能学会！！！

大模型量化是怎么实现的——transformers源码解读

Ollama 支持的 flash attention 能提升推理速度吗？我们一起测测看吧

大模型本地部署介绍---vllm和llama.cpp

最新开源的Llama3.1大模型能否在Android上运行？Yes！

图解llama架构 解读源码实现

【大模型RAG】Graph RAG介绍及ollama本地部署

CPU 时间是如何耗费在 llama.cpp 程序和 LLaMA2 模型内部的（使用 OpenResty XRay）（中文解说）

详解TensorRT的C++/Python高性能部署，实战应用到项目

使用Llama.cpp在摩尔线程S80上进行通义千问7b模型推理

Llama 2 模型结构解析

llama_cpp的pc端部署

无门槛人人可用. llama.cpp现已进入chatGPT Box自定义模型支持列表

本地语言模型个人推荐

第十五课：LLaMA

ollama vs vllm - 开启并发之后的 ollama 和 vllm 相比怎么样？

模型量化六：QLoRA 4bit 量化 NormalFloat4 量化

【大模型部署】Ollama部署Qwen2及llama.cpp补充

LlamaFactory:微调QWe (千问)模型 简单微调多数模型的便捷方法

03_多模态_基于llama.cpp进行模型量化和推理

1700多种开源大模型随意部署！一键本地搭建大模型+知识库，不挑环境、不挑配置

大模型量化部署解析当前应用较广的几种量化部署方案！

图解llama架构解读源码实现

LlamaFactory:微调QWe (千问)模型简单微调多数模型的便捷方法