V
主页
京东 11.11 红包
大模型训练中的粪口循环
发布人
现在诸如gpt4,llama3,通义千问这些常见的模型,无论开源还是闭源,在训练阶段都大量使用合成数据。所谓的合成数据就是用大模型自身来生成数据作为训练样本。这种方法虽然可以短时间产出大量高质量的数据用于训练,确实提高了模型的效果和训练效率,但是 在训练中使用模型生成的内容会在结果模型中造成不可逆的缺陷,未来多数模型的数据训练也来自网络,它们将不可避免地接收到在其前任大模型生成的数据。 最近有研究者观察到了“模型崩溃”的现象,模型生成的数据污染了下一代模型的训练集,导致它们误解了现实。 模型会把一些错误的信息误认为真实,并不断加强认知,最终形成“思想钢印”,以至于完全无法纠错。 为什么模型会“崩溃”?现阶段,大模型还处在对人类思维活动的初级模仿中,它的核心仍然是一种统计。 如果我们用AI生成内容来训练AI,会产生“统计近似误差”(Statistical approximation error ), 因为在统计的过程中,越大概率的内容被进一步强化,小概率的内容被不断忽视,这是模型崩溃的主要原因。此外, 还会产生“函数近似误差”(Functional approximation error ),这指的是模型的函数在计算过程中会不断将计算的错误保留下来。 这两个原因导致的后果就是随着模型的不断训练,错误也不断一代又一代地累积起来,从而丧失了自我纠错的能力。 模型崩溃会对大模型带来不少负面影响,一是多样性丧失。模型崩溃会导致生成的文本多样性丧失。大模型的长处是捕获人类语言中的广泛可能性,具备超强的“想象力”。然而,当模型崩溃时,它往往会生成重复性很高且多样性很低的内容。二是准确性下降。模型崩溃,生成的文本会越来越不准确。模型可能会开始引入一些根本不应该存在的或者无意义的信息,严重降低内容质量。三是影响微调效果。模型会自我强化认知,会不断经过几代人的模型倾向于从原始数据中生成更可能的序列,但可能会引入它们自己的错误,进一步妨碍了微调模型的准确性和可靠性。总的来说,在大型语言模型的背景下,模型崩溃破坏了它们生成多样化和准确文本的能力,这对于各种自然语言处理应用至关重要。除了模型崩溃现象之外,论文还提到了当前研究中发现的两个类似的现象,一个称为“灾维性遗忘”,另一个是“数据投毒”。有意思的是,这两个现象都与使用AI生成的数据训练AI有关。有媒体报道的时候,称这种“AI训练AI”的方式为“粪口循环”。 信息污染无处不在,这并非危言耸听,即使在当AI还不太聪明的时代,低质量的内容已经在充斥着互联网空间。在大模型广泛应用之前,人类已经通过标题党、恶意曲解、选择性剪辑等方式,在网络上制造了无数的信息污染,形成了各种大大小小的信息茧房。 要想避免模型崩溃的现象,需要区分由大模型生成的数据和其他数据,最好能直接使用人类生成的原始数据,或者是让合成数据的概率分布尽可能接近人。 但是啊,当前随着AI生成的内容的应用越来越广,“失控”可能无法避免。AI生产内容的效率仍然有很大的提升空间,“性价比”只会越来越高。在这种情况下,利用AI生产内容将很快成为一个普遍的操作。尽管AI到底能不能生成精品内容仍然存疑,但AI在内容数量方面的优势恐怕将无可匹敌。 另一方面,当前一些机构正在利用各种技术手段对互联网进行信息污染,AI会让他们如虎添翼。因此,这种动作不仅不会停下来,还几乎必然会进一步加剧。 目前已经有一些网站试图识别由AI创作的内容,这将是一场猫鼠游戏。不过,识别单一的内容是否由AI生成,这或许在技术上可以实现。不过,这样的内容一旦超过一定的比例,有可能导致AI无法得到一个完整而“纯净”的语料库。特别是对于除英语之外的其它语言,在互联网上本来就只有较少的优质内容可以作为语料。 这甚至可能产生一种“死亡循环”,AI大模型在迭代过程中将无法绕开这道难关——以当前AI发展的速度来看,这种现象完全有可能在三到五年内出现。
打开封面
下载高清视频
观看高清视频
视频下载器
让提示词变异 攻破大模型
国产大模型的罪与罚
大模型其实没有逻辑能力
手机本地运行AI大模型 最全面横评 效果实测(二)6B-8B参数模型
大模型是何种智能?
SD目前最稳定角色一致性控制方法(附插件),一键设定人物长相,再也不用担心崩脸!
来自东南亚的邪术:一种攻击大模型的方法
大模型烧钱的原因
读论文像“喝水”一样简单?90%的人都不知道的AI工具!
玩转小模型的三板斧
我国自主研发的AI大模型,居然扫出了老美的隐藏雷达!
2025年五大惊人AI趋势!人工智能技术
RAG+知识图谱的四种方法
怕的就是大模型也搞“自营”
【StableDiffusion】AI绘画一键生成连环漫画教程,排版文字自动处理!没手也能画出你的专属漫画书!(附资料)
微软创始人 比尔·盖茨称,人工智能是一种没有限制的技术!人工智能技术
手撕llama32处理图片,喂饭级教程,全程敲写代码,吴恩达AI课程llama32多模态处理辅助,非常详细,适合新手学习
毕设有救了!如何从零到一搭建自己的RAG系统!LightRAG、LLM、大模型RAG检索增强生成
O1大模型背后的原理以及带来的趋势
首批国产AI大模型获批正式面向全社会开放
手机可以运行大语言模型了!!
斯坦福大学重磅推出第二代广泛用于大语言模型的FlashAttention算法
bitnet.cpp 推理,速度超越 llama.cpp,内存最高降低 16 倍 | 附 BitNet b1.58 模型安装演示
盘点一周AI大事(10月13日)|AI实现盗梦空间,人类寿命延长一倍
实测多模态开源大模型Llama 3.2 vs Pixtral
大模型项目失败的十大原因(二)
从黑神话悟空看游戏行业对人工智能的发展
贾维斯时代真实现了
AI影片《郑成功传》
EMNLP2024分享会之多模态主题
Dimba模型:融合Transformer与Mamba技术,灵活地平衡吞吐量和内存需求,并生成更高质量的图像
AI模型喜欢的诡异画风
Claude一句话操控电脑,敲代码写教案做Excel,打工人真要失业了?
全面超越GraphRAG,速度更快,效果更好,落地部署更方便。从原理、本地Qwen2.5-3B模型部署到源码解读,带你全流程解析LightRAG
【卢菁老师说】从面试官的角度看大模型岗位的技术要求和准备方向
GPT-4眼里的自己长什么样?网友用文本、画图、音频和视频生成工具,做出了GPT-4眼里自己的样子
【神经网络杀疯了!】登上nature!人工智能迎来新突破!被证明具有泛化能力,能像人类一样思考
完全放弃人类知识,从更大空间中从头探索真理
AI智能玻璃愿景!人工智能技术
大模型面经--微调篇