V
主页
为什么大模型越微调越差?
发布人
随着大模型在千行百业逐步落地,其中一种重要的落地方式就是 用垂域数据对基座大模型进行微调。可但凡微调过的人都有这么个感受,在基座大模型上直接用数据微调,会让模型变得超级不稳定。具体来说,微调后模型在对应数据上性能变好,但在其他原始性能上却明显下降,这又叫灾难性遗忘。而且,这两者之间极难通过微调来平衡。 要是使用过微调的小伙伴就知道,在庞大模型基础上,由于计算力、训练时间、数据量等因素限制,只能对部分参数快速调整,放弃对所有数据或模型参数的完整调整。结果呢,模型就分成了两个孤立部分,原始的基座部分和微调的部分。这种形态很难让模型从底层形成反映整体能力的有机体。就像人的身体,肾脏不好可以器官移植来缓和病症,但这肯定不是对整个有机体的有效治疗方式。从这个角度看,微调只能算是治标不治本! 其实要解决微调的造成的负面效应,可以从几个方面进行解决,比如说,在训练数据中,垂直数据(就是你需要影响的数据)混合一些通用知识进行训练,或者直接使用外挂知识库,也就是RAG的方式进行应用。
打开封面
下载高清视频
观看高清视频
视频下载器
大模型其实没有逻辑能力
大模型烧钱的原因
山姆.奥特曼:AI技术疯狂进步,但社会的变化却缓慢的惊人!人工智能技术
RAG+知识图谱的四种方法
马斯克的AI大模型五分钟上手!每月25美元免费额度!
Cross Attention is al you need!交叉注意力机制13篇必读
大模型有可能带着人工智能走一条弯路
李飞飞团队重磅开源ReKep:万能具身机器人!实时交互,还可搭载GPT-4o!在微信公众号「3D视觉
【卢菁老师说】从面试官的角度看大模型岗位的技术要求和准备方向
国产大模型陷入技术迷局与 商业困境!市面所见模型主要分两类:其一为基础通用大模型,像文心一言、通义千问等大厂力作!其二则是行业专用模型,在政务、医疗、金融等细分
别看刷榜,大模型靠不靠谱,就看这一条
AI 发展大激辩:星辰大海与跟随战术,谁能主宰未来?大模型发展
2045年实现永生!纳米机器人!人工智能技术
字节跳动不讲武德,偷袭OpenAI,OpenAI反向封号
【喂饭教程】Ollama+OpenWebUI部署本地大模型,畅玩上万个开源大模型~小白入门必看的保姆级教程!
苹果诠释真正的开源;小模型时代拉开帷幕
来自东南亚的邪术:一种攻击大模型的方法
以色列公司Sightful做出了一个没有屏幕的笔记本,它用高清晰度高解析度的AR眼睛做屏幕,屏幕空间扩展十倍不止,虽然这技术没什么新鲜的,但好想拥有一台啊~!现
太...完整了!【多模态大模型】入门到精通全套课程来了-北大博士后卢菁博士授课-最新前沿方向均有涉猎!人工智能/transformer/NLP
图片编辑(image editing)是一大类方向,而最简单的无疑是通过对话来修改图片。这已不是科幻,不会太久可能就会有工具推出
AI病毒出现啦,对Hugging Face开源模型精准投毒!用虚假事实洗脑60亿人
比刷剧还爽!【OpenCV+YOLO】终于有人能把OpenCV图像处理+YOLO目标检测讲的这么通俗易懂了!J建议收藏!(人工智能、深度学习、机器学习算法)
从千问 2.5看阿里云 的AI 战略!人工智能技术发展
Ollama 全新升级:多模态 Llama3.2Vision 强势登场!在linux环境下实现图生文大模型丨模型本地安装部署丨性能多维度测评
【吹爆!】【AIGC扩散学习+多模态+大模型】入门到实战,全程通俗易懂干货分享-北京大学卢菁博士授课—人工智能/机器学习/图像处理
十万token,很多书都可以一次性输入了
直接抄她的代码,就是最好的学习方法!!
腾讯最强开源,混元大模型!推出 Hunyuan-Large 开源大模型:389B 总参数、52B 激活参数!
研一刚入学,从未接触过神经网络python也是才开始学,现在导师要我做LSTM,我应该去学什么?
这绝对是全网最全的Transformer,VIT/Swin/DETR模型全详解,迪哥3小时带你吃透Transformer模型!
Openai宣布将在下周向所有 ChatGPT Plus 用户开放网络浏览和70多个第三方插件!chatgpt终于可以回答你最新消息以及包括直接生成图片、可视化
小波变换无敌了!搭配时间序列轻松发A会,思路创新才是王道!
用语音自动化操作电脑软件的gpt,凭说话控制所有设备,软件的时代正在到来,大模型就是人类和外部世界的智能中介
研一,在学机器学习和深度学习,为什么感觉越学越不会,怎么解决这个问题
如果你掌握了这六种算法,恭喜你已经搞定了95% 的算法
国产赛博世界要来了吗?
一文读懂文心大模型ERNIE的技术-北京大学卢菁博士授课-NLP开发利器大模型ERNIE:超大规模预训练模型原理及应用精讲
OmniParser:微软发布截屏解析器, 可识别任何截屏中的可交互图标,理解屏幕中各个元素的含义,从而可准确地将预期动作与屏幕上的相应区域关联操作
【研三】自研多模态大模型架构——长时程、高鲁棒
脸书母公司meta发布voicebox,超强语音生成AI,只要采集到2秒钟的音频,就能模仿你说话