为什么大模型越微调越差？

发布人

随着大模型在千行百业逐步落地，其中一种重要的落地方式就是 用垂域数据对基座大模型进行微调。可但凡微调过的人都有这么个感受，在基座大模型上直接用数据微调，会让模型变得超级不稳定。具体来说，微调后模型在对应数据上性能变好，但在其他原始性能上却明显下降，这又叫灾难性遗忘。而且，这两者之间极难通过微调来平衡。
要是使用过微调的小伙伴就知道，在庞大模型基础上，由于计算力、训练时间、数据量等因素限制，只能对部分参数快速调整，放弃对所有数据或模型参数的完整调整。结果呢，模型就分成了两个孤立部分，原始的基座部分和微调的部分。这种形态很难让模型从底层形成反映整体能力的有机体。就像人的身体，肾脏不好可以器官移植来缓和病症，但这肯定不是对整个有机体的有效治疗方式。从这个角度看，微调只能算是治标不治本！
其实要解决微调的造成的负面效应，可以从几个方面进行解决，比如说，在训练数据中，垂直数据（就是你需要影响的数据）混合一些通用知识进行训练，或者直接使用外挂知识库，也就是RAG的方式进行应用。

打开封面下载高清视频观看高清视频视频下载器

为什么大模型越微调越差？

大模型其实没有逻辑能力

大模型烧钱的原因

山姆.奥特曼：AI技术疯狂进步，但社会的变化却缓慢的惊人！人工智能技术

RAG+知识图谱的四种方法

马斯克的AI大模型五分钟上手！每月25美元免费额度！

Cross Attention is al you need！交叉注意力机制13篇必读

大模型有可能带着人工智能走一条弯路

李飞飞团队重磅开源ReKep：万能具身机器人！实时交互，还可搭载GPT-4o！在微信公众号「3D视觉

【卢菁老师说】从面试官的角度看大模型岗位的技术要求和准备方向

国产大模型陷入技术迷局与 商业困境！市面所见模型主要分两类：其一为基础通用大模型，像文心一言、通义千问等大厂力作！其二则是行业专用模型，在政务、医疗、金融等细分

别看刷榜，大模型靠不靠谱，就看这一条

AI 发展大激辩：星辰大海与跟随战术，谁能主宰未来？大模型发展

2045年实现永生！纳米机器人！人工智能技术

字节跳动不讲武德，偷袭OpenAI，OpenAI反向封号

【喂饭教程】Ollama+OpenWebUI部署本地大模型，畅玩上万个开源大模型~小白入门必看的保姆级教程！

苹果诠释真正的开源；小模型时代拉开帷幕

来自东南亚的邪术：一种攻击大模型的方法

以色列公司Sightful做出了一个没有屏幕的笔记本，它用高清晰度高解析度的AR眼睛做屏幕，屏幕空间扩展十倍不止，虽然这技术没什么新鲜的，但好想拥有一台啊~！现

太...完整了！【多模态大模型】入门到精通全套课程来了-北大博士后卢菁博士授课-最新前沿方向均有涉猎！人工智能/transformer/NLP

图片编辑（image editing)是一大类方向，而最简单的无疑是通过对话来修改图片。这已不是科幻，不会太久可能就会有工具推出

AI病毒出现啦，对Hugging Face开源模型精准投毒！用虚假事实洗脑60亿人

比刷剧还爽！【OpenCV+YOLO】终于有人能把OpenCV图像处理+YOLO目标检测讲的这么通俗易懂了!J建议收藏！（人工智能、深度学习、机器学习算法）

从千问 2.5看阿里云 的AI 战略！人工智能技术发展

Ollama 全新升级：多模态 Llama3.2Vision 强势登场！在linux环境下实现图生文大模型丨模型本地安装部署丨性能多维度测评

【吹爆！】【AIGC扩散学习+多模态+大模型】入门到实战，全程通俗易懂干货分享-北京大学卢菁博士授课—人工智能/机器学习/图像处理

十万token，很多书都可以一次性输入了

直接抄她的代码，就是最好的学习方法！！

腾讯最强开源，混元大模型！推出 Hunyuan-Large 开源大模型：389B 总参数、52B 激活参数！

研一刚入学，从未接触过神经网络python也是才开始学，现在导师要我做LSTM，我应该去学什么？

这绝对是全网最全的Transformer，VIT/Swin/DETR模型全详解，迪哥3小时带你吃透Transformer模型！

Openai宣布将在下周向所有 ChatGPT Plus 用户开放网络浏览和70多个第三方插件！chatgpt终于可以回答你最新消息以及包括直接生成图片、可视化

小波变换无敌了！搭配时间序列轻松发A会，思路创新才是王道！

用语音自动化操作电脑软件的gpt，凭说话控制所有设备，软件的时代正在到来，大模型就是人类和外部世界的智能中介

研一，在学机器学习和深度学习，为什么感觉越学越不会，怎么解决这个问题

如果你掌握了这六种算法，恭喜你已经搞定了95％ 的算法

国产赛博世界要来了吗？

一文读懂文心大模型ERNIE的技术-北京大学卢菁博士授课-NLP开发利器大模型ERNIE：超大规模预训练模型原理及应用精讲

OmniParser：微软发布截屏解析器， 可识别任何截屏中的可交互图标，理解屏幕中各个元素的含义，从而可准确地将预期动作与屏幕上的相应区域关联操作

【研三】自研多模态大模型架构——长时程、高鲁棒

脸书母公司meta发布voicebox，超强语音生成AI，只要采集到2秒钟的音频，就能模仿你说话

国产大模型陷入技术迷局与商业困境！市面所见模型主要分两类：其一为基础通用大模型，像文心一言、通义千问等大厂力作！其二则是行业专用模型，在政务、医疗、金融等细分

从千问 2.5看阿里云的AI 战略！人工智能技术发展

如果你掌握了这六种算法，恭喜你已经搞定了95％的算法

OmniParser：微软发布截屏解析器，可识别任何截屏中的可交互图标，理解屏幕中各个元素的含义，从而可准确地将预期动作与屏幕上的相应区域关联操作