微调一个模型需要多少GPU显存？ - 视频下载 Video Downloader

微调一个模型需要多少GPU显存？

发布人

补充几点：

1. 视频中提到的activation等部分也会占据显存，但由于涉及到太细节的技术名词，所以视频中暂时忽略。 
2. 对于Optimizer States，这里的变量也很多比如Adam, AdamW，SGD，以及不同的精度等。
3. 1GB等于10的9次方Byte, 一个Byte等于8bit, 这是计算机基本的表示方法。
4. 整体来说，视频中的预估是比较粗略的估计，只是给大家一个借鉴，如果想更详细预估，就需要了解背后的一定原理。

视频里提到的参考资料：

1. 视频末尾推荐的用于估算GPU的文章： LLMem: Estimating GPU Memory Usage for Fine-Tuning Pre-Trained LLMs
2. QLoRA：Efficient Finetuning of Quantized LLMs
3. LoRA: Low-Rank Adaptation of Large Language Models

打开封面下载高清视频观看高清视频视频下载器

从0.5B到340B的LLM都需要多少显存？

最便宜的48GB显存运算卡-RTX8000

通俗易懂理解自注意力机制（Self-Attention）

大模型微调实践：动手微调一个好玩/好用的大模型

Llama 3.1论文精读 · 1. 导言【论文精读·54】

经典RAG很难解决的问题以及Agent思路

作者亲自讲解：LoRA 是什么？

4060ti16g显存不会自有人认为是为了ai模拟训练生产的吧 4060ti 电脑电脑知识电脑配置电脑装机

什么是大模型量化和蒸馏？

最近火爆的GraphRAG是什么？真的那么有用吗？

半块RTX4090 玩转70B大语言模型

什么是端到端（End-to-End）模型？

「Llama 3.1」405B 在2台Macbook上成功运行❗️性能媲美GTP-4o｜国内大模型喜提更新❓

【13B大模型无用】大家不需要用自己的8G显存跑大模型了，没意义，70B也许成，我试试

通俗易懂理解提示工程、RAG和微调

未来一年大模型发展的八大趋势

什么是爆显存？显存内存那些事-极客湾3月31

本地语言模型个人推荐

为什么需要智能体（Agent）

家庭PC本地部署LLama3 70B模型测试，对比70B和8B模型的效果，看看人工智障距离人工智能还有多远

双4090部署qwen72b大模型每秒150tokens

什么是混合专家模型（MoE)？

关于Llama3.1模型简要总结&启示

模型推理时所需的GPU显存

如何把RAG和知识图谱结合

4070 Ti Super微调大模型GLM4，定制化大模型输出

5分钟学会微调大模型Qwen2

Flash Attention 为什么那么快？原理讲解

理解向量数据库与文本向量检索效率

从零开始学习大语言模型（一）

什么是灾难性遗忘？为什么要重视它？

当前大模型技术能否走向AGI？

大模型项目失败的十大原因（二）

选择大于一切：AI项目技术可行性与商业价值的双重解析

使用大模型时可调节的TopK、TopP到底是什么意思？

大模型RAG企业项目实战：手把手带你搭建一套完整的RAG系统，原理讲解+代码解析，草履虫都能学明白！LLM大模型_RAG_大模型微调_多模态

小扎认为 Llama 会成为开源 AI 的行业标杆，就像当年的 Linux 一样

Windows下中文微调Llama3，单卡8G显存只需5分钟，可接入GPT4All、Ollama实现CPU推理聊天，附一键训练脚本。

RAG、In-context learning微调之间的选择

LoRA是什么？| 5分钟讲清楚LoRA的工作原理