您现在的位置:新闻首页>快讯
Nature:AI检测器又活了?成功率高达98%吊打OpenAI
OpenAI都搞不定的问题,被堪萨斯大学的一个研究团队解决了?他们开发的学术AI内容检测器,准确率高达98%。如果将这个技术再学术圈广泛推广,AI论文泛滥的可能得到有效缓解。
但是最近,Nature报导了堪萨斯大学的一个团队的研究成果,他们开发的学术AI检测系统,能有效分辨论文中是否含有AI生成的内容,准确率高达98%!
研究团队的核心思路是,不追求制作一个通用的检测器,而只是针对某个具体领域的学术论文,来构建一个真正有用的AI文字检测器。
研究人员表示,通过针对特定类型的写作文本定制检测软件,可能是通向开发出通用AI检测器的一个技术路径。
「如果可以快速、轻松地为某个特定领域构建检测系统,那么为不同的领域构建这样的系统就不那么困难了。」
研究人员提取了论文写作风格的20个关键特征,然后将这些特征数据输入XGBoost模型进行训练,从而就能区分人类文本和AI文本。
而在他们最新的研究中,检测器是在美国化学学会(ACS)出版的十种化学期刊论文的引言部分进行了训练。
研究小组之所以选择「引言(Introduction)」部分,是因为如果ChatGPT能够获取背景文献,那么论文的这一部分就相当容易撰写。
研究人员用100篇已发表的引言作为人类撰写的文本对工具进行了训练,然后要求ChatGPT-3.5以ACS期刊的风格撰写200篇引言。
对于GPT-3.5撰写的200篇引言,其中的100篇,提供给了GPT-3.5论文标题来要求撰写,而对于另外100篇,则提供了论文摘要作为写作的依据。
检测器识别出ChatGPT-3.5基于标题撰写的引言部分的准确率为 100%。对于基于摘要撰写的ChatGPT生成的引言,准确率略低,为 98%。
相比之下,通用AI检测器ZeroGPT识别AI撰写的引言的准确率只有35-65%左右,准确率取决于所使用的ChatGPT版本以及引言是根据论文标题还是摘要生成的。
由OpenAI制作的文本分类器工具(论文发表之时,OpenAI已经把这个检测器下架了)也表现不佳,它能识别AI撰写的引言的准确率只有10-55%。
不过,虽然这个检测系统对于科学期刊论文来说性能非常好,当被用来检测大学报纸上的新闻文章时,识别效果就不太理想了。
(1) 每段落的句子数、(2) 每段落的单词数、(3) 是否存在括号、(4) 是否存在破折号、(5) 是否存在分号或冒号,(6)是否存在问号,(7)是否存在撇号,(8)句子长度的标准偏差,(9)段落中连续句子的(平均)长度差异,(10 ) 存在少于 11 个单词的句子,(11) 存在超过 34 个单词的句子,(12) 存在数字,(13) 文本中存在两倍以上的大写字母(与句点相比)段落,并且存在以下词语:(14)虽然,(15)但是,(16)但是,(17)因为,(18)这个,(19)其他人或研究人员,(20)等。
此外,检测AI文本的能力受到提供给语言模型的提示的影响,因此任何旨在检测AI写作的方法都应该针对可能混淆AI使用的提示进行测试,之前的研究中没有评估这个变量。
最后,新版的ChatGPT即GPT-4已经推出,它比GPT-3.5有显着改进。AI文本检测器需要对来自GPT-4等新版本的语言模型的文本有效。
为了扩大了AI检测器的适用范围,这里的数据收集来自13个不同期刊和3个不同出版商、不同的AI提示以及不同的AI文本生成模型。
使用真实人类的文本和AI生成的文本训练XGBoost分类器。然后通过真人写作、 AI提示以及GPT-3.5和GPT-4等方式来生成新的范例用于评估模型。
结果表明,本文提出的这种简单的方法非常有效。它在识别AI生成的文本方面的准确率为98%–100%,具体取决于提示和模型。相比之下,OpenAI最新的分类器的准确率在10% 到56% 之间。
本文的检测器将使科学界能够评估ChatGPT对化学期刊的渗透,确定其使用的后果,并在出现问题时迅速引入缓解策略。
包括《无机化学》、《分析化学》、《物理化学杂志A》、《有机化学杂志》、《ACS Omega》、《化学教育杂志》、《ACS Nano》、《环境科学与技术》、《毒理学化学研究》和《ACS化学生物学》。
使用每个期刊中10篇文章的引言部分,训练集中总共有100个人类写作样本。选择介绍部分是因为在适当的提示下,这是最有可能由ChatGPT撰写的文章的部分。
每个期刊仅使用10篇文章是一个异常小的数据集,但作者认为这并不是一个问题,恰恰相反,假设可以使用如此小的训练集开发有效的模型,则可以使用最小的计算能力快速部署该方法。
提示设计是这些研究中的一个关键方面。对于每个人类编写的文本,AI比较器都会使用两种不同的提示生成,这两种提示都旨在要求ChatGPT像化学家一样写作。
整个训练数据集包含100个人工生成的介绍和200个ChatGPT生成的介绍;每个段落都成为一个「写作示例」。
从每个段落中提取了20个特征的列表,这些特征涉及段落的复杂性、句子长度的变化、各种标点符号的使用以及在人类科学家或ChatGPT着作中可能更频繁出现的「流行词」。
人类生成的文本更难正确分配,但准确性仍然相当不错。作为一个群体,人类的写作风格比ChatGPT更加多样化,这可能导致使用这种方法正确分类其写作样本的难度增大。
简单测试使用的测试数据与训练数据性质相同(选取同一期刊的不同文章),使用新选择的文章标题和摘要来提示ChatGPT。
而在困难测试中,使用GPT-4代替GPT-3.5来生成AI文本,由于已知GPT-4比GPT-3.5更好,那么分类精度是否会下降呢?
在完整文档级别,人工生成文本的分类准确率达到94%,提示2的AI生成文本准确率为98% , 提示1的AI文本分类正确率达到100%。
底部的数据显示了使用GPT-3.5文本特征训练的模型对GPT-4文本进行分类时的结果。所有类别的分类准确性都没有下降,这是一个非常好的结果,证明了方法在GPT-3.5和GPT-4上的有效性。
虽然这种方法的整体准确性值得称赞,但最好通过将其与现有的人工智能文本检测器进行比较来判断其价值。这里使用相同的测试集数据测试了两种效果领先的检测工具。
第一个工具是ChatGPT的制造商OpenAI提供的文本分类器。OpenAI承认该分类器并不完美,但仍然是他们最好的公开产品。
第二个检测工具是ZeroGPT。其制造商声称检测人工智能文本的准确率达到98%,并且该工具接受了1000万份文档的训练。在目前的许多评估中,它是性能最好的分类器之一。而且,ZeroGPT制造者表示他们的方法对GPT-3.5和GPT-4都有效。
三个检测器在人类文本的识别上都有着相似的高精度;然而,在评估AI生成的文本时,三个工具存在显着差异。
在使用提示1的情况下,本文的工具对GPT-3.5和GPT-4都有100% 的准确率,但ZeroGPT对于GPT-3.5文本的失败率为32%,对于GPT-4文本的失败率为42%。OpenAI产品的表现更差,在GPT-4文本上的失败率接近70%。
那么,该方法能否准确检测不属于训练集的期刊中的ChatGPT写作,以及如果使用不同的提示,该方法仍然有效吗?
此外,还收集了由大学生于2022年秋季撰写并发表在10种不同大学报纸上的一组100篇报纸文章。由于本文的检测器是专门针对科学写作而优化的,因此可以预计新闻报道不会被高精度地分类。
从图中可以看到,应用相同的模型,并使用ACS期刊的文本对这组新示例进行训练后,正确分类率为92%–98%。这与训练集中得到的结果类似。
事实上,当使用本文描述的特征和模型进行评估时,几乎所有文章都比人类科学文章更类似于人工智能生成的文本。
本文地址:http://www.zibocpa.cn/qichekuaixun/2024/Nature_AIjcqyhl_cglgd98_ddOpenAI_67658.html
上一篇:12强赛-国足全场0射正收官战0-2阿曼连续7轮不胜
下一篇:0比0!国足被黑了?
- 本网转载的作品,目的在于传递更多信息,并不代表本网赞同其观点或证实其内容的真实性,不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时,必须保留本网注明的作品来源,并自负版权等法律责任。
- 如涉及作品内容、版权等问题,请联系我们进行修改或删除。
- 01电子发票与纸质发票的区别你清楚
- 02关于神魔小雪全套背后的真相是什
- 03带着嘱托学带着感情学带着责任学
- 04不(bù)乏(fá)其(qí)人(rén)背后真相
- 05金鹰策略配置混合
- 06彼方からの镇魂歌可以这样理解吗
- 07有关买椟还珠怎么上了热搜?
- 08在发布后受到了广大用户的欢迎
- 09M系列新车仅6万多!全系15T57座可
- 010牟(móu)豺(chái)酞(tài)怀(huái)绍
- 011枝尼殉煎息到底是个什么梗?
- 012有关故(gù)步(bù)自(zì)封(fēng)这
- 013快手招商团长入住官网
- 014关于一小时快相这件事可以这样解
- 015有关炉蝇涟甥喀网友如何看?
- 016好听的短信提示音会有什么样影响
- 017关于旷继勋蓬遂起义这样理解正确
- 018系能源什么是系能源?系能源的最
- 019关于非常静距离江珊背后真相是什
- 020周五冲高31℃或将成为2000年以来最
- 021三分钟log车车名中的“X”到底读
- 022仁(rén)者(zhě)见(jiàn)仁(rén)网友
- 023是陕西省首支央企投行机构与国家
- 024有关九阴真经侠义值这是一条可靠
- 025提供债权收购及重组附回购条件的
- 01中国资产的含金量将进一步提升
- 02作为参与多届双11活动的商家
- 03先入为主具体内容是什么?
- 04有关汗(hàn)马(mǎ)功(gōng)劳(láo
- 05关于建(jiàn)级(jí)数(shù)这是一条
- 06关于百肥症球具体是什么原因?
- 07横行霸道发生了什么?
- 08刚刚传来!恭喜蚌埠!
- 09天舟七号完成全区合练各系统准备
- 010拟构建行政民事刑事立体化追责体
- 011兰格报道:钢价连续走跌“冬储”
- 012九牧卫浴特别邀请着名歌手黄安现
- 013李强主持召开国务院常务会议研究
- 014在维护社会和谐稳定大局中
- 015对他来说过程比结果重要
- 016东方心绮楼正式版到底怎么回事
- 017关于仁和清火胶囊这个事件网友怎
- 018横(hénɡ)菊(jú)严(yán)弛(chí)网友
- 019关于靡舱陋攫景到底是什么原因
- 020证监会11月28日宣布
- 021龙(lóng)蛇(shé)混(hùn)杂(zá)是传言
- 022不能只是为了蹭热点赶时髦
- 023有关球(qiú)哥(ɡē)忌(jì)是什么原
- 024以往红外相机拍到的照片有上千张
- 025花千骨定妆照这是个什么梗?
- 01仿佛置身其中这歌我反复听了不止
- 02昂(áng)首(shǒu)阔(kuò)步(bù)这条消
- 03我的迷你小黑裙消息可靠吗?
- 04西少爷肉夹馍具体内容!
- 05有关无(wú)济(jì)于(yú)事(shì)到底
- 06“创二代”张锐鑫:关工委搭建起
- 07有关炫舞牛小郎在哪里具体是什么
- 08根据家庭实际困难情况综合判断是
- 09但有些紧张状况仍有待逐步缓解
- 010《飞驰人生2》定档2023年春节:沉
- 011关于则(zé)急(jí)又是个什么梗?
- 012有的社区将之前为三级医院设置的
- 013避免人身攻击等言论
- 014电水壶除水垢背后真相是什么?
- 015关于翱俭拼昔详情介绍!
- 016在独家播放恋爱循环的QQ音乐平台
- 017影片在一定历史基础上虚构了故事
- 018关于口袋商业街2存档发生了什么
- 019有关散户大家庭这是怎么回事?
- 020关于桫椤怎么读这是怎么回事?
- 021本·斯蒂勒个人资料简历档案_导演
- 022关于挞丛卫令这是不是真相?
- 023强军必先强心强心重在铸魂。
- 024如果古老的巨型病毒在冷冻这么长
- 025抑镀自副改终于真相了?