V
主页
大模型部署与微调-上
发布人
微调是指调整大型语言模型(LLM)的参数以适应特定任务的过程。这是通过在与任务相关的数据集上训练模型来完成的。所需的微调量取决于任务的复杂性和数据集的大小。 在深度学习中,微调是一种重要的技术,用于改进预训练模型的性能。除了微调ChatGPT之外,还有许多其他预训练模型可以进行微调。 PEFT是什么 PEFT(Parameter-Efficient Fine-Tuning)是hugging face开源的一个参数高效微调大模型的工具,里面集成了4种微调大模型的方法,可以通过微调少量参数就达到接近微调全量参数的效果,使得在GPU资源不足的情况下也可以微调大模型。 微调方法 微调可以分为全微调和重用两个方法: 全微调(Full Fine-tuning):全微调是指对整个预训练模型进行微调,包括所有的模型参数。在这种方法中,预训练模型的所有层和参数都会被更新和优化,以适应目标任务的需求。这种微调方法通常适用于任务和预训练模型之间存在较大差异的情况,或者任务需要模型具有高度灵活性和自适应能力的情况。Full Fine-tuning需要较大的计算资源和时间,但可以获得更好的性能。 部分微调(Repurposing):部分微调是指在微调过程中只更新模型的顶层或少数几层,而保持预训练模型的底层参数不变。这种方法的目的是在保留预训练模型的通用知识的同时,通过微调顶层来适应特定任务。Repurposing通常适用于目标任务与预训练模型之间有一定相似性的情况,或者任务数据集较小的情况。由于只更新少数层,Repurposing相对于Full Fine-tuning需要较少的计算资源和时间,但在某些情况下性能可能会有所降低。 微调预训练模型的方法: 微调所有层:将预训练模型的所有层都参与微调,以适应新的任务。 微调顶层:只微调预训练模型的顶层,以适应新的任务。 冻结底层:将预训练模型的底层固定不变,只对顶层进行微调。 逐层微调:从底层开始,逐层微调预训练模型,直到所有层都被微调。 迁移学习:将预训练模型的知识迁移到新的任务中,以提高模型性能。这种方法通常使用微调顶层或冻结底层的方法。 Fine tuning 经典的Fine tuning方法包括将预训练模型与少量特定任务数据一起继续训练。在这个过程中,预训练模型的权重被更新,以更好地适应任务。所需的Fine-tuning量取决于预训练语料库和任务特定语料库之间的相似性。如果两者相似,可能只需要少量的Fine tuning。如果两者不相似,则可能需要更多的Fine tuning。 Prompt Tuning(P-tuning) Prompt Tuning 是2021年谷歌在论文《The Power of Scale for Parameter-Efficient Prompt Tuning》中提出的微调方法。参数高效性微调方法中实现最简单的方法还是Prompt tuning(也就是我们常说的P-Tuning),固定模型前馈层参数,仅仅更新部分embedding参数即可实现低成本微调大模型。 经典的Prompt tuning方式不涉及对底层模型的任何参数更新。相反,它侧重于精心制作可以指导预训练模型生成所需输出的输入提示或模板。主要结构是利用了一个prompt encoder(BiLSTM+MLP),将一些pseudo prompt先encode(离散token)再与input embedding进行拼接,同时利用LSTM进行 Reparamerization 加速训练,并引入少量自然语言提示的锚字符(Anchor,例如Britain)进一步提升效果。然后结合(capital,Britain)生成得到结果,再优化生成的encoder部分。 但是P-tuning v1有两个显著缺点:任务不通用和规模不通用。在一些复杂的自然语言理解NLU任务上效果很差,同时预训练模型的参数量不能过小。具体的效果论文中提到以下几点: Prompt 长度影响:模型参数达到一定量级时,Prompt 长度为1也能达到不错的效果,Prompt 长度为20就能达到极好效果。 Prompt初始化方式影响:Random Uniform 方式明显弱于其他两种,但是当模型参数达到一定量级,这种差异也不复存在。 预训练的方式:LM Adaptation 的方式效果好,但是当模型达到一定规模,差异又几乎没有了。 微调步数影响:模型参数较小时,步数越多,效果越好。同样随着模型参数达到一定规模,zero shot 也能取得不错效果。 当参数达到100亿规模与全参数微调方式效果无异。
打开封面
下载高清视频
观看高清视频
视频下载器
大模型部署与微调-下
【2024最新】68个大模型实战项目,练完即可就业,从入门到进阶,基础到框架,你想要的全都有,建议码住!超级适合小白入门学习(大模型教程|微调|部署|入门)
强推!B站最全的【大模型微调】实战教程,微调-量化-部署-应用一条龙解读!草履虫都能学会!!!
2024阿里大佬带你独立搭建一套完整RAG实战教程!(模型、原理、增强检索、向量数据库、实战)
自学AI Agent?一般人我还是劝你算了吧!!!(附最新AI Agent零基础教程)LLM_大模型_微调_提示词
大模型LLM-RAG知识库问答实战项目前后端实战课 - Milvus/QWen/ChatGPT/Flask/Tailwindcss
吹爆!这可能是B站最全的LLama3教程了,从零到一带你微调-量化-部署-应用一条龙实例解读!还不会微调Llama3你来打我!
B站公认最强的LLAMA3保姆级教程,llama3微调-量化-部署-应用实例解读,还学不会的你来锤爆我!人工智能|机器学习|深度学习
iPhone 16新特性16分钟全了解
30分钟吃透Transformer架构!pytorch从0实现! | 代码逐行讲解 | 源码开放 | 高效入门
吴恩达大佬又出新课了!《Hugging Face中的开源模型》双语字幕,16集全,建议收藏!-huggingface、开源模型、吴恩达
SRE做什么
LangChain居然不香了?一线程序员现身说法,硬核剖析LLM应用开发原则
【还不懂Llama3的有救了】这可能是唯一能将Llama3讲清楚的教程了!llama3功能调用、模型微调、部署与量化应用实例解读,一口气带你吃透!!!
超强动画演示,一步一步深入浅出解释Transformer原理!这可能是我看到过最通俗易懂的Transformer教程了吧!——(人工智能、大模型、深度学习)
职能型管理与流程管理的区别
十分钟带你【本地搭建大模型+知识库】不挑环境,不挑配置,一键部署应用,小白也能轻松搭建纯本地化的专属AI产品!-人工智能、大模型
经典RAG很难解决的问题以及Agent思路
大龄打工者的现状与出路之面对现实去解决它
csa-ccptp公开课-第五章节
【大模型入门】2024最详细的大模型学习路线!手把手教你最高效的大模型学习方法(大模型微调/大模型RAG/Agent...)
ITIL中客户旅程的要点
In-context learning微调和增量预训练之间的区别
【大模型超级教程】LangChain实战极简入门教程,从入门到入魔,看这一篇就够了,草履虫都能学会,超详细!!!LLM_agent_提示词
字节大佬带你独立搭建一套完整RAG实战教程!(模型、原理、增强检索、向量数据库、实战)
【全648集】清华大佬终于把AI大模型课整理出来了,通俗易懂,2024最新版,学完即就业!拿走不谢,学不会我退出IT圈!
强推!目前B站最全最细的LlamaIndex零基础全套课程,大模型实战系列,全流程解读分析,包含所有干货!七天就能从小白到大神!存下吧!简直比刷剧还爽!
OLMoE:基于MoE的全开源大模型
2024年IT发展趋势
DevOps经典之作《持续交付》
csa-ccptp-公开课-云平台资产侦查技术
24年最强提示词工程(Prompt Engineering)教程,全程干货,无废话,无尿点!!!学到就是赚到!!!
给大模型新人的经验,刷到少走3年弯路!
敏捷十二原则
ITIL4-7大原则
项目管理第七版(PMP7th)八大绩效
数据安全与法律需求
Product owner的工作重点
吹爆!2024最详细的大模型学习路线整理出来啦!通俗易懂,2024最新内部版,学完即就业!
GraphRAG实现解读【上篇 - 写入】