您现在的位置：新闻首页>快讯

Nature：AI检测器又活了？成功率高达98%吊打OpenAI

2024-01-17编辑：admin(来源：原创/投稿/转载)

　　OpenAI都搞不定的问题，被堪萨斯大学的一个研究团队解决了？他们开发的学术AI内容检测器，准确率高达98%。如果将这个技术再学术圈广泛推广，AI论文泛滥的可能得到有效缓解。

　　但是最近，Nature报导了堪萨斯大学的一个团队的研究成果，他们开发的学术AI检测系统，能有效分辨论文中是否含有AI生成的内容，准确率高达98%！

　　研究团队的核心思路是，不追求制作一个通用的检测器，而只是针对某个具体领域的学术论文，来构建一个真正有用的AI文字检测器。

　　研究人员表示，通过针对特定类型的写作文本定制检测软件，可能是通向开发出通用AI检测器的一个技术路径。

　　「如果可以快速、轻松地为某个特定领域构建检测系统，那么为不同的领域构建这样的系统就不那么困难了。」

　　研究人员提取了论文写作风格的20个关键特征，然后将这些特征数据输入XGBoost模型进行训练，从而就能区分人类文本和AI文本。

　　而在他们最新的研究中，检测器是在美国化学学会（ACS）出版的十种化学期刊论文的引言部分进行了训练。

　　研究小组之所以选择「引言（Introduction）」部分，是因为如果ChatGPT能够获取背景文献，那么论文的这一部分就相当容易撰写。

　　研究人员用100篇已发表的引言作为人类撰写的文本对工具进行了训练，然后要求ChatGPT-3.5以ACS期刊的风格撰写200篇引言。

　　对于GPT-3.5撰写的200篇引言，其中的100篇，提供给了GPT-3.5论文标题来要求撰写，而对于另外100篇，则提供了论文摘要作为写作的依据。

　　检测器识别出ChatGPT-3.5基于标题撰写的引言部分的准确率为 100%。对于基于摘要撰写的ChatGPT生成的引言，准确率略低，为 98%。

　　相比之下，通用AI检测器ZeroGPT识别AI撰写的引言的准确率只有35-65%左右，准确率取决于所使用的ChatGPT版本以及引言是根据论文标题还是摘要生成的。

　　由OpenAI制作的文本分类器工具（论文发表之时，OpenAI已经把这个检测器下架了）也表现不佳，它能识别AI撰写的引言的准确率只有10-55%。

　　不过，虽然这个检测系统对于科学期刊论文来说性能非常好，当被用来检测大学报纸上的新闻文章时，识别效果就不太理想了。

　　(1) 每段落的句子数、(2) 每段落的单词数、(3) 是否存在括号、(4) 是否存在破折号、(5) 是否存在分号或冒号，（6）是否存在问号，（7）是否存在撇号，（8）句子长度的标准偏差，（9）段落中连续句子的（平均）长度差异，（10 ) 存在少于 11 个单词的句子，(11) 存在超过 34 个单词的句子，(12) 存在数字，(13) 文本中存在两倍以上的大写字母（与句点相比）段落，并且存在以下词语：（14）虽然，（15）但是，（16）但是，（17）因为，（18）这个，（19）其他人或研究人员，（20）等。

　　此外，检测AI文本的能力受到提供给语言模型的提示的影响，因此任何旨在检测AI写作的方法都应该针对可能混淆AI使用的提示进行测试，之前的研究中没有评估这个变量。

　　最后，新版的ChatGPT即GPT-4已经推出，它比GPT-3.5有显着改进。AI文本检测器需要对来自GPT-4等新版本的语言模型的文本有效。

　　为了扩大了AI检测器的适用范围，这里的数据收集来自13个不同期刊和3个不同出版商、不同的AI提示以及不同的AI文本生成模型。

　　使用真实人类的文本和AI生成的文本训练XGBoost分类器。然后通过真人写作、 AI提示以及GPT-3.5和GPT-4等方式来生成新的范例用于评估模型。

　　结果表明，本文提出的这种简单的方法非常有效。它在识别AI生成的文本方面的准确率为98%–100%，具体取决于提示和模型。相比之下，OpenAI最新的分类器的准确率在10% 到56% 之间。

　　本文的检测器将使科学界能够评估ChatGPT对化学期刊的渗透，确定其使用的后果，并在出现问题时迅速引入缓解策略。

　　包括《无机化学》、《分析化学》、《物理化学杂志A》、《有机化学杂志》、《ACS Omega》、《化学教育杂志》、《ACS Nano》、《环境科学与技术》、《毒理学化学研究》和《ACS化学生物学》。

　　使用每个期刊中10篇文章的引言部分，训练集中总共有100个人类写作样本。选择介绍部分是因为在适当的提示下，这是最有可能由ChatGPT撰写的文章的部分。

　　每个期刊仅使用10篇文章是一个异常小的数据集，但作者认为这并不是一个问题，恰恰相反，假设可以使用如此小的训练集开发有效的模型，则可以使用最小的计算能力快速部署该方法。

　　提示设计是这些研究中的一个关键方面。对于每个人类编写的文本，AI比较器都会使用两种不同的提示生成，这两种提示都旨在要求ChatGPT像化学家一样写作。

　　整个训练数据集包含100个人工生成的介绍和200个ChatGPT生成的介绍；每个段落都成为一个「写作示例」。

　　从每个段落中提取了20个特征的列表，这些特征涉及段落的复杂性、句子长度的变化、各种标点符号的使用以及在人类科学家或ChatGPT着作中可能更频繁出现的「流行词」。

　　人类生成的文本更难正确分配，但准确性仍然相当不错。作为一个群体，人类的写作风格比ChatGPT更加多样化，这可能导致使用这种方法正确分类其写作样本的难度增大。

　　简单测试使用的测试数据与训练数据性质相同（选取同一期刊的不同文章），使用新选择的文章标题和摘要来提示ChatGPT。

　　而在困难测试中，使用GPT-4代替GPT-3.5来生成AI文本，由于已知GPT-4比GPT-3.5更好，那么分类精度是否会下降呢？

　　在完整文档级别，人工生成文本的分类准确率达到94%，提示2的AI生成文本准确率为98% ，提示1的AI文本分类正确率达到100%。

　　底部的数据显示了使用GPT-3.5文本特征训练的模型对GPT-4文本进行分类时的结果。所有类别的分类准确性都没有下降，这是一个非常好的结果，证明了方法在GPT-3.5和GPT-4上的有效性。

　　虽然这种方法的整体准确性值得称赞，但最好通过将其与现有的人工智能文本检测器进行比较来判断其价值。这里使用相同的测试集数据测试了两种效果领先的检测工具。

　　第一个工具是ChatGPT的制造商OpenAI提供的文本分类器。OpenAI承认该分类器并不完美，但仍然是他们最好的公开产品。

　　第二个检测工具是ZeroGPT。其制造商声称检测人工智能文本的准确率达到98%，并且该工具接受了1000万份文档的训练。在目前的许多评估中，它是性能最好的分类器之一。而且，ZeroGPT制造者表示他们的方法对GPT-3.5和GPT-4都有效。

　　三个检测器在人类文本的识别上都有着相似的高精度；然而，在评估AI生成的文本时，三个工具存在显着差异。

　　在使用提示1的情况下，本文的工具对GPT-3.5和GPT-4都有100% 的准确率，但ZeroGPT对于GPT-3.5文本的失败率为32%，对于GPT-4文本的失败率为42%。OpenAI产品的表现更差，在GPT-4文本上的失败率接近70%。

　　那么，该方法能否准确检测不属于训练集的期刊中的ChatGPT写作，以及如果使用不同的提示，该方法仍然有效吗？

　　此外，还收集了由大学生于2022年秋季撰写并发表在10种不同大学报纸上的一组100篇报纸文章。由于本文的检测器是专门针对科学写作而优化的，因此可以预计新闻报道不会被高精度地分类。

　　从图中可以看到，应用相同的模型，并使用ACS期刊的文本对这组新示例进行训练后，正确分类率为92%–98%。这与训练集中得到的结果类似。

　　事实上，当使用本文描述的特征和模型进行评估时，几乎所有文章都比人类科学文章更类似于人工智能生成的文本。

本文地址：http://www.zibocpa.cn/qichekuaixun/2024/Nature_AIjcqyhl_cglgd98_ddOpenAI_67658.html

上一篇：12强赛-国足全场0射正收官战0-2阿曼连续7轮不胜

下一篇：0比0！国足被黑了？

版权与免责声明

本网转载的作品，目的在于传递更多信息，并不代表本网赞同其观点或证实其内容的真实性，不承担此类作品侵权行为的直接责任及连带责任。其他媒体、网站或个人从本网转载时，必须保留本网注明的作品来源，并自负版权等法律责任。
如涉及作品内容、版权等问题，请联系我们进行修改或删除。

热点排行

今日推荐周排行月排行