V
主页
微调一个模型需要多少GPU显存?
发布人
补充几点: 1. 视频中提到的activation等部分也会占据显存,但由于涉及到太细节的技术名词,所以视频中暂时忽略。 2. 对于Optimizer States,这里的变量也很多比如Adam, AdamW,SGD,以及不同的精度等。 3. 1GB等于10的9次方Byte, 一个Byte等于8bit, 这是计算机基本的表示方法。 4. 整体来说,视频中的预估是比较粗略的估计,只是给大家一个借鉴,如果想更详细预估,就需要了解背后的一定原理。 视频里提到的参考资料: 1. 视频末尾推荐的用于估算GPU的文章: LLMem: Estimating GPU Memory Usage for Fine-Tuning Pre-Trained LLMs 2. QLoRA:Efficient Finetuning of Quantized LLMs 3. LoRA: Low-Rank Adaptation of Large Language Models
打开封面
下载高清视频
观看高清视频
视频下载器
从0.5B到340B的LLM都需要多少显存?
最便宜的48GB显存运算卡-RTX8000
通俗易懂理解自注意力机制(Self-Attention)
大模型微调实践:动手微调一个好玩/好用的大模型
Llama 3.1论文精读 · 1. 导言【论文精读·54】
经典RAG很难解决的问题以及Agent思路
作者亲自讲解:LoRA 是什么?
4060ti16g显存不会自有人认为是为了ai模拟训练生产的吧 4060ti 电脑 电脑知识 电脑配置 电脑装机
什么是大模型量化和蒸馏?
最近火爆的GraphRAG是什么? 真的那么有用吗?
半块RTX4090 玩转70B大语言模型
什么是端到端(End-to-End)模型?
「Llama 3.1」405B 在2台Macbook上成功运行❗️性能媲美GTP-4o|国内大模型喜提更新❓
【13B大模型无用】大家不需要用自己的8G显存跑大模型了,没意义,70B也许成,我试试
通俗易懂理解提示工程、RAG和微调
未来一年大模型发展的八大趋势
什么是爆显存?显存内存那些事-极客湾3月31
本地语言模型个人推荐
为什么需要智能体(Agent)
家庭PC本地部署LLama3 70B模型测试,对比70B和8B模型的效果,看看人工智障距离人工智能还有多远
双4090部署qwen72b大模型 每秒150tokens
什么是混合专家模型(MoE)?
关于Llama3.1模型简要总结&启示
模型推理时所需的GPU显存
如何把RAG和知识图谱结合
4070 Ti Super微调大模型GLM4,定制化大模型输出
5分钟学会微调大模型Qwen2
Flash Attention 为什么那么快?原理讲解
理解向量数据库与文本向量检索效率
从零开始学习大语言模型(一)
什么是灾难性遗忘?为什么要重视它?
当前大模型技术能否走向AGI?
大模型项目失败的十大原因(二)
选择大于一切:AI项目技术可行性与商业价值的双重解析
使用大模型时可调节的TopK、TopP到底是什么意思?
大模型RAG企业项目实战:手把手带你搭建一套完整的RAG系统,原理讲解+代码解析,草履虫都能学明白!LLM大模型_RAG_大模型微调_多模态
小扎认为 Llama 会成为开源 AI 的行业标杆,就像当年的 Linux 一样
Windows下中文微调Llama3,单卡8G显存只需5分钟,可接入GPT4All、Ollama实现CPU推理聊天,附一键训练脚本。
RAG、In-context learning微调之间的选择
LoRA是什么?| 5分钟讲清楚LoRA的工作原理