您现在的位置:新闻首页>推选
用AI生成数据训练AI最终只会“模型崩溃”
人尽皆知:过去的科幻文学家预言了潜艇、卫星、人工智能等后世科技里程碑。然而科幻文学家们的预言中,其实应验的乌鸦嘴不比正面成就少,比如DDOS网络攻击、个人生物信息盗窃、和人工智能模型的退化。
2023年2月,美国华裔科幻文学家特德·姜发表文章称:ChatGPT等大语言模型,实质是对互联网语料库的有损模糊压缩,如同JPEG格式之于原始高清图片。
按特德·姜的观点,用大语言模型生成的文本来训练新的模型,如同反复以JPEG格式存储同一图像,每次都会丢失更多的信息,最终成品质量只会越来越差。大语言模型生成的文本在网络上发布得越多,信息网络本身就变得越发模糊、难以获取有效线月中,牛津、剑桥、伦敦帝国学院、爱丁堡大学、多伦多大学等高校的AI研究者发布的论文预印本《递归之诅咒:用生成数据训练会使模型遗忘》在业界流传开来。论文中用实验结果证明了特德·姜的预言:用AI生成数据训练新的AI,最终会让新的AI模型退化以至崩溃。
这些研究者们发现,在训练新的神经网络AI模型时,使用大语言模型生成的内容作为训练数据集,会导致训练出的模型出现不可逆转的缺陷,即使模型最初的基础架构原始数据来自真实世界的实际数据。研究者们将这一新模型的退化过程与结果称为“模型崩溃”。
按论文所述,不管受训的新模型功能是以文字生成文字还是以图片生成图片,只要使用其他模型生成的内容来训练,这个过程是不可避免的,即使模型处在近乎理想状态的长时间学习条件亦如此。
论文一作伊利亚·苏玛利沃夫(Ilia Shumailov)称,AI生成数据中的错误会极快沉淀,最终导致从生成数据中学习的模型进一步错误地感知现实。
“模型崩溃”分为早期与晚期两种。在早期时,被喂生成数据的AI模型会开始失去原初数据分布的信息;在晚期,被喂生成数据的AI模型会吐出完全不符合现实、不相关原初底层数据的结果。
而且与症状类似的“灾难性遗忘”不同,“模型崩溃”的AI一直保有对之前学习过的原初底层数据的记忆,但极其固执,错误会千篇一律且难以矫正,模型将持续甚至强化将错误结果认为是正确的结论。
研究者们先用小模型试验起,用相同模型生成的数据训练同一模型。以此方法在高斯混合模型(GMM)上实验,拿AI分辨人工生成的不同正态分布。结果是在如此训练50次后模型开始出错到无法分辨原初底层数据。训练到两千次后,模型的错误结果收敛到每次基本雷同毫无变化。
以同样方法训练变分自编码器(VAE)模型,训练5次后模型开始出错,10次后模型的错误结果开始与原初底层数据无关,20次后错误结果就开始收敛至基本雷同。
以上的小模型的原初数据量小,或许易于迷惑。研究者再用现在商用广泛的OPT-125m文本生成模型实验,此模型由Meta 公司开发,参数量1.25亿。研究者先用有1亿词元的“维基文本库2”数据集喂给模型,跑出同样词元量的生成结果数据集。再用生成结果数据集反复训练OPT-125m模型。
结果是,在研究者输入提示词之后,起初的OPT-125m模型吐出的是带有乱码但大体成文的语句。被如此训练1次的大模型吐出的是带有瞎编内容的幻觉性文本,但仍然成文。被如此训练7次的大模型吐出的是完全与初始提示词无关的文本,9次后大模型的生成文本就是完全不知所云的车轱辘话。
“模型崩溃”的原因其实并不难懂。概言之,与特德·姜、马斯克这些名人们嘲笑生成式AI的说辞很相近:这些大模型本质上是高端统计学应用,离“智能”的实质还差得远。
用AI生成内容来训练AI的话,无可避免就会踩进“统计近似值偏差”的坑里。实质是高端统计程序的神经网络模型们,天然会高估、过于重视大概率的通常值,也会低估、过于忽视小概率的非常值。
这些模型生成的结果无法规避以上缺陷,持续用来再训练新模型,数据的多样性会越来越小、符合真实的正确度会越来越有限、“近似值拟合”会越来越严重。用研究者的话来说,用AI生成数据来训练新的AI,是在毒化模型对真实世界的认知。
用论文作者之一罗斯·安德森(Ross Anderson)的话说,这就如同用莫扎特作品来训练AI,结果会得出一个风格类似莫扎特但缺乏灵气的“萨列尼”模型。再用“萨列尼”模型的作品训练新的模型,如此反复五六次后,最终模型的音乐作品既不会有莫扎特的风格也不会有莫扎特的灵光。
除了这一主因外,“函数近似值误差”也会为“模型崩溃”推波助澜。任何神经网络AI在本质都算是有限的通用函数近似器,但总会出现函数近似值过度表达或不充分表达带来的结果不精确。
理论上来说,“统计近似值偏差”与“函数近似值误差”并不必然会带来恶果,有少许可能,这些偏差恰好会消除真实数据中的噪音值,让AI模型的生成结果更符合真实数据分布。然而更大的可能是,这些误差会放大、加乘数据噪音。
在罗斯·安德森的个人博客中,有人评论这是热力学中的熵、生物学中的近亲繁殖退化,在AI界的复现。
对于业界,此发现再次凸显了真实人类创造的数据的稀缺性。罗斯·安德森戏称,在海洋布满不可降解塑料垃圾、空气里充满二氧化碳排放物后,互联网以后也会被大语言模型生成的低质量结果污染。反过来说,真实人类创造的数据如同洁净的空气与饮水,是日后生成式AI必须依赖的维生补给。
在如此背景下,不难理解为何推特与Reddit这些用户活跃的社交媒体纷纷取消应用程序接口扒数据的权限。这些社交媒体上的真人互动内容都是以后越来越值钱的不可再生资源,马斯克们是绝不愿继续免费让OpenAI们拿去用的。
一是扒完当代互联网数据后,继续扒古旧文本与图像数据。保存了远至两百年前书籍扫描件的“互联网档案馆”,在5月底称网站之前短暂崩溃,是因为托管在亚马逊云服务器上的数十个虚拟接口做出了每秒数万次的数据查询请求,导致网站无法承载。
二是老实花钱买。北京时间6月17日0点,《金融时报》独家报道,称最近数月内,谷歌、OpenAI、微软等公司在与新闻业界的大企业,如新闻集团(News Corp)、纽约时报和卫报在内的出版商接触,寻求AI训练数据材料的持续来源并避免未来的版权纠纷。
虽然商洽还在早期阶段,但信源透露出的信息是AI巨头企业们愿意为作为AI模型训练数据的新闻内容向媒体巨头们支付定期订阅费用,媒体巨头们开出的价位是年均500-2000万美元。
本文地址:http://www.zibocpa.cn/qichetuixuan/2023/yAIscsjxlAIzzzh_mxbk__56631.html
- 本网转载的作品,目的在于传递更多信息,并不代表本网赞同其观点或证实其内容的真实性,不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时,必须保留本网注明的作品来源,并自负版权等法律责任。
- 如涉及作品内容、版权等问题,请联系我们进行修改或删除。
- 01关于公务员仕途升迁记又是什么梗
- 02关于轨鬼搐趟准当背后的真相是什
- 03被查的20大代表第1人:中央直属机
- 04百扼玩般瘟到底是什么情况?
- 05有关爱情连连看白星发生了什么
- 06凯瑟琳·泽塔·琼斯背后的逻辑是
- 07有关百万大歌星张靓颖网友会怎么
- 08关于绝代双骄梁朝伟粤语消息可靠
- 09愉泪老帛(bó)习(xí)会造成什么影
- 010也逐渐成为行业向上发展的核心要
- 011中国垃圾焚烧发电厂产能规模百强
- 012关于间接伤害百度影音为什么上热
- 013口的拼音_口的近义词_口的反义词
- 014有关昌(chānɡ)显(xiǎn)这条消息可
- 015关于最搞笑的小品台词终于真相了
- 016关于小8和赵洁吻照究竟什么情况
- 017有关没(méi)射(shè)看看网友是如何
- 018努力成为中国式现代化建设的先行
- 019有关人心惟危这是怎么回事?
- 020@爱摄影的你江苏启动“特田生活
- 021买家和卖家的权益都无法保障
- 022星河长明拥有庞大完整的世界观个
- 023有关春宵一刻值千金具体情况是什
- 024我市居民收入连跨两个万元台阶接
- 025推动AI在教育领域的普及化和普惠
- 01闷闷不乐(mèn mèn bù lè)又是个什
- 026月6日起铁路新增昆明大理丽江间
- 03损之又损(sǔn zhī yòu sǔn)背后的真
- 04有关自相矛盾(zì xiāng máo dùn)会
- 05以学正风强党性廉洁奉公树新风—
- 06提高信披质量需市场各主体共同发
- 07有关教师节献给老师的歌究竟是什
- 08华映科技:公司子公司华佳彩生产
- 09谈及今冬疫情形势时
- 010所以对他有一种很深的感情
- 011争风吃醋(zhēng fēng chī cù)有没有
- 0122022年陕西各市GDP出炉:西安一城
- 013各阶段DHA添加量(分别占总脂肪酸
- 014有关战旗2023这件事可以这样解读
- 015习近平主持召开二十届中央审计委
- 016公(gōng)事(shì)公(gōng)办(bàn)背后
- 017短平台发展正盛
- 018一草一木又是什么梗?
- 019西安男子当众打砸奥迪围观群众起
- 020兽人之流氓攻真的假的?
- 021让老乡腰包更鼓一点
- 022随着消费者对于健康和有效护肤的
- 023当地时间2017年3月15日
- 024有温度有力度有精度
- 025无微不至(wú wēi bù zhì)看看网友
- 01刺猬的拥抱简谱最新消息!
- 02“降息潮”后钱还能放哪
- 03有关二十六种死法究竟什么情况
- 04银行卡可以代办吗?
- 05诛(zhū)腔(qiānɡ)纯(chún)是真的吗
- 06这个“0”背后有一个诀窍和故事
- 07中国经济发展经历了很不寻常的过
- 08剑(jiàn)拔(bá)弩(nǔ)张(zhāng)网友
- 09徒手攀爬高楼一晚连偷两户“在逃
- 010关于日本旭化成代理商背后真相是
- 011不(bù)胜(shèng)枚(méi)举(jǔ)这是个
- 012通过输送优秀管理人员初创期产品
- 013倾(qīng)耳(ěr)而(ér)听(tīng)究竟什
- 014有关后(hòu)继(jì)乏(fá)人(rén)怎
- 015有关徘砧梦没匀具体情况是什么
- 016便利外资投资A股市场的动作
- 017关于狡兔三窟(jiǎo tù sān kū)真实
- 018有关天桥风云插曲发生了什么?
- 019仍有一些竞赛主办方
- 020关于不(bù)堪(kān)入(rù)耳(ěr)会造
- 021有关爆竹声声辞旧岁的下联这到底
- 022例(lì)郝(hǎo)究竟什么原因?
- 023通宇通讯:5月23日融券卖出金额
- 024球之不得滚球里的这些雷千万别踩
- 025酒可以带上高铁吗携带会不会有一