V
主页
大模型瘦身技术 GGUF和GPTQ
发布人
哈喽,小伙伴们! 今天,咱们聊聊如何把大模型瘦身。 如果你家里的计算设备是这样的,配备了8块NVIDIA H100 GPU,每块有640GB显存,系统内存还有大约2TB,抱歉,这不是你想要的视频。 不过,如果你的家用电脑或笔记本没有NVIDIA显卡,别担心,我们会教你如何进行轻量级的大语言模型量化,以节省内存哦。 假设你想在自家电脑上本地运行大型语言模型,咱们来聊聊。 我有一台电脑,配备了非NVIDIA的AMD GPU,或者你想要在苹果设备上运行你的大语言模型,比如M1、M2,甚至可能是即将推出的M3 MacBook。 那这部视频正对你的胃口。 那我们赶紧往下跳吧! 现在,专业级的大语言模型量化通常有三种不同的方法。 你懂QLora,对吧? 这个我已经给你们演示过了。 接着是GPT量化,还有GGUF 现在,什么是量化?为什么我们需要它,又如何帮我们减小内存负担呢?咱们来聊聊这个神奇的数字瘦身术。 简单! 你知道,那些大模型参数多得吓人,用32位浮点数存储,内存需求可是不小呢。 所以,量化可以减少内存需求,用更少的比特表示我们的大模型参数。 所以,我们是从32位一路降维到更低的位数表示。 但缺点是,量化可能导致模型性能下降,因为我们丢失了浮点数的数学精度。 而这正是微妙之处和代码质量的较量,目标是缩减内存占用,同时还得尽可能接近32位浮点数的精准表现。 那我们开始吧。 QLora,我这儿有段关于它的视频哦,看片时间到! 我这儿给你展示了研究论文。 这很清楚。 GPTQ,这我可没视频教程。 难以置信。 但你懂的,这事儿挺简单的。 你有训练后量化,简称「训完就缩」。 所以你有了你的大模型。 这个大模型是32位的,要么是完整精度,要么就是单精度16级浮点运算。 所以,先是完整的大型语言模型,训练后接着来场“瘦身大法”——对模型参数进行极限压缩。
打开封面
下载高清视频
观看高清视频
视频下载器
Part3 一键转换gguf格式大模型文件开源模型一键导入ollama
【AI主播-LLM篇】对接 koboldcpp,简单运行各种 GGML 和 GGUF 模型
第7节:awq和gptq适配
如何理解模型量化-GGML vs GPTQ
Ollama导入GGUF文件方法三——WSL2
vllm-gptq 实现 Qwen 量化模型的加速推理
【大模型量化】llama.cpp轻量化模型部署及量化
理解:AI模型量化,GGML vs GPTQ!
FLUX-GGUF模型的文生图、图生图、局部重绘、高清修复、修脸、SD放大的基础流程合集
[LLMs inference] quantization 量化整体介绍(bitsandbytes、GPTQ、GGUF、AWQ)
【一键包】谁也不能阻止我和AI小姐姐涩涩,显存不够内存来凑!|无限制|解除思想钢印|AI女友|教程|语言模型|人工智能
Ollama导入GGUF文件
【玩转AI】ollama安装本地大模型,以及加载运行gguf开源大模型
6GB显存就能用FLUX,GGUF从零开始保姆级安装教程
Ollama+Chatbox搭建本地大模型,一键加载各种gguf开源大模型
用 300 元的显卡推理 Qwen1.5-14B 效果展示
70种Nvidia GPU显卡大比拼 大模型、AI、LLM、深度学习炼丹你到底该怎么配显卡?
大模型量化一网打尽(一)理论基础
Qwen1.5系列6个模型如何选择? AWQ还是GPTQ?#小工蚁
如何将大模型快速转化为对应的GPTQ量化模型,十分钟快速拥有自己的GPTQ模型
大模型量化一网打尽(三)实战
flux_dev_4Q_gguf+Hyper_SD低显存、高效率出超清优质图最优解
最简单方式本地搭建大语言模型,LLAMA系列GGUF格式无需python,无需魔法上网可下载,安装个驱动就行,GPU、CPU都可以 4060TI16G34B效果
大模型操作 | 开源模型的量化,GGUF格式转换,Ollama识别
LM Studio支持Qwen1.5了测试了72B-Chat的Q2版本gguf被阿里官方支持了
FLUX-NF4更新V2版本,精度更高,速度更快,FLUX-GGUF模型发布、对比
[ComfyUI] Flux 模型 nf4 & gguf 量化版:快速生成与细节对比评测
双4090部署qwen72b大模型 每秒150tokens
llamafactory大模型微调llama.cpp量化gguf模型中转ollama微调量化后推理调用llamafactory本地windows部署报错解决方案
chat4all 的 本地 ai 部署方法 以及 bin 模型 失效, gguf 模型获取方式,移植位置。
Ollama如何使用现有的GGUF文件
AWQ和GPTQ大模型4bit量化 哪种算法更优?#小工蚁
无内容审查无思想钢印,CausalLM-7B,本地大模型整合包,兼容CPU和GPU推理
续一杯,gguf、nf4、fp8多版本FLUX速度评测,含lora速度
LM Studio 本地大语言模型运行器快速测评
GPTQ&OBC:量化你的GPT【论文粗读·4】
使用Mac Studio跑Mistral AI新出Mixtral-8x7B-MoE大模型速度测试(M2 Ultra 76-core GPU 192GB RAM)
令人震惊的准确函数调用,采用新款Hermes 2 Pro
大模型量化一网打尽四(gptq源码)
本地部署 Llama3 – 8B/70B 大模型!最简单的3种方法,支持CPU /GPU运行 !100% 保证成功!! | 零度解说