一款AI检测工具可轻易识别ChatGPT撰写的论文

一款AI检测工具可轻易识别ChatGPT撰写的论文该论文的合著者、美国堪萨斯大学的化学家HeatherDesaire指出，“大多数文本分析领域都想要推出一种真正通用的检测器，可以适用于任何东西”。但她表示她的团队正通过制作一种专注于特定类型论文的检测工具，旨在“追求准确性”。Desaire称，研究结果表明，开发人工智能（AI）检测器的努力可以通过定制软件来促进特定类型的论文写作，“如果你能快速而轻松地构建一项专门的工具，那么为不同的领域构建不同的工具就不是那么困难了。”从公布的数据来看，这种专门的检测器比市面上现有的两种人工智能检测器的性能都要好，可以帮助学术出版商识别出那些由人工智能文本生成器生成的论文。准确率惊人Desaire和她的同事在6月份首次描述了他们研发的ChatGPT探测器，当时他们将其应用于《科学》杂志上的Perspective文章。该团队使用人工智能检测器检查写作风格的20个特征，包括句子长度的变化、某些单词和标点符号的频率等，来确定文章是有人类科学家所作还是由ChatGPT所生成的。当时的研究结果表明，“你可以使用一小部分特征来获得高水平的准确性”。在最新的研究中，该团队将美国化学学会（ACS）出版的十本化学期刊的论文引言部分作为人工智能探测器的训练对象。研究人员将100篇已发表的人类撰写的引言作为比对材料，然后要求ChatGPT-3.5以ACS期刊的风格撰写200篇引言。其中100篇是研究人员向ChatGPT提供了论文标题后生成的，而另外100篇是研究人员向ChatGPT提供了论文摘要后生成的。研究结果显示，当把人类撰写的引言和和人工智能从同一期刊上生成的介绍进行测试时，该人工智能检测器能够100%识别出由ChatGPT-3.5编写的前100篇引言（基于论文标题生成的）；而对于后100篇ChatGPT-3.5生成的引言（基于论文摘要所生成的），检测的准确率略低，为98%。此外，该工具同样适用于ChatGPT-4编写的文本。相比之下，市场上的另两款人工智能检测器中，德国的ZeroGPT识别人工智能编写的介绍的准确率仅为35-65%，这取决于使用的ChatGPT版本以及介绍是由论文标题还是摘要生成的。而OpenAI自身的文本分类器工具也表现不佳——它能够识别人工智能编写的介绍，准确率约为10-55%。柏林应用科技大学研究学术剽窃的计算机科学家DeboraWeber-Wulff评价道，该篇论文的作者们所做的是一件“令人着迷的事情”。她表示，许多现有的工具试图通过搜索人工智能生成的文章的预测文本模式来确定作者的身份，而不是通过观察写作风格和文体的特征。Weber-Wulff称，“我从来没有想过在ChatGPT上使用文体计量学。”...PC版：https://www.cnbeta.com.tw/articles/soft/1395143.htm手机版：https://m.cnbeta.com.tw/view/1395143.htm

在Telegram中查看

相关推荐

最新研究：61%中国人写的英语论文会被ChatGPT检测器判为AI生成的

最新研究：61%中国人写的英语论文会被ChatGPT检测器判为AI生成的这....这这什么意思？气抖冷！非母语者不配？目前，生成式语言模型发展迅速，确实给数字通信带来了巨大进步。但滥用真的不少。虽说研究人员已经提出了不少检测方法来区分AI和人类生成的内容，但这些检测方法的公平性和稳定性仍然亟待提高。为此，研究人员使用母语为英语和母语不为英语的作者写的东西评估了几个广泛使用的GPT检测器的性能。研究结果显示，这些检测器始终将非母语者写作的样本错误地判定为AI生成的，而母语写作样本则基本能被准确地识别。此外，研究人员还证明了，用一些简单的策略就可以减轻这种偏见，还能有效地绕过GPT检测器。这说明什么？这说明GPT检测器就看不上语言表达水平不咋地的作者，多叫人生气。不禁联想到那款判断AI还是真人的游戏，如果对面是真人但你猜是AI，系统就会说，“对方可能会觉得你冒犯了。”不够复杂=AI生成？研究人员从一个中国的教育论坛上获取了91篇托福作文，又从美国Hewlett基金会的数据集中摘取了88篇美国八年级学生写的作文，用来检测7个被大量使用的GPT检测器。图表中的百分比表示“误判”的比例。即，是由人写的，但检测软件认为是AI生成的。可以看到数据非常悬殊。七个检测器中，美国八年级学生写的作文被误判的概率最高才12%，还有两个零误判的GPT。中国论坛上的托福作文被误判的概率基本全部过半，最高误判概率可达76%。91篇托福作文中的18篇被所有7个GPT检测器一致认为是AI生成的，而91篇中有89篇，都至少被一个GPT检测器误判。从上图中我们可以看出，被所有7个GPT误判的托福作文在复杂度（Complexity）上明显低于其它论文。这就印证了开头的那个结论——GPT检测器会对那些语言表达能力有限的作者有一定偏见。因此，研究人员认为，GPT检测器应该多看点儿非母语者写的文章，样本多了，才能消除偏见。接下来，研究人员把非母语者写的托福作文扔到了ChatGPT里，丰富一下语言，模仿母语者的用词习惯。同时作为对照组，把美国八年级小孩儿写的作文也扔到了ChatGPT里，把语言简化了一下，模仿非母语者的写作特点。下图就是修正后的新判定结果。我们可以发现，情况来了个大掉个儿，丰富了语言的托福作文错判率直线下降，低至3%，最高也不过19%。不像之前基本全部过半的错判率。与之相反，八年级小孩儿写的作文的错判率直线上升，甚至还有一个GPT检测器的错判率高达99%，基本全错。因为，文章复杂度这个变量出现了变化。这里研究人员就得出了一个结论，非母语者写的东西不地道，复杂度低，容易被错判。这也就导向了一个技术问题，同时也是一个价值问题。以复杂度来判定AI还是人类是作者，是否合理、全面、严谨。结果显然不是。以复杂度为判断标准的情况下，非母语者吃了大亏，因为，他们是非母语者（废话）。AI润色=人类写的？？研究者认为，加强语言多样性不仅可以减轻对非母语者的偏见，还能让GPT生成的内容绕过GPT检测器。为了证明这个观点，研究人员选取了2022-2023年间美国大学申请的入学论文题目，输入到ChatGPT-3.5里，一共生成了31篇假论文。GPT检测器一开始还挺有效，但是第二轮就不行了。这是因为，在第二轮中，研究人员把这些论文又扔到ChatGPT里润色了一下，用一些文学性的语言提升了文本质量。这样一来，GPT检测器的准确度就从100%直降到了0%。如下图：经过润色的文章复杂度相应也上升了。与此同时，研究人员又用了斯坦福大学145个期末项目报告的题目，让ChatGPT生成摘要。摘要经过润色以后，检测器判断的准确性继续下降。研究者再次得出结论，润色过的文章很容易被误判，都是AI生成的，两轮就是比一轮强。GPT检测器？还是欠练言而总之，总而言之，各种GPT检测器好像还是没能抓住AI生成和人类写作之间最本质的区别。人的写作也分三六九等，仅靠复杂度判断，不甚合理。抛开偏见因素不谈，技术本身也亟待改进。...PC版：https://www.cnbeta.com.tw/articles/soft/1358281.htm手机版：https://m.cnbeta.com.tw/view/1358281.htm

ChatGPT下架官方检测工具承认AI文字无法鉴别

ChatGPT下架官方检测工具承认AI文字无法鉴别对于CloseAIOpenAI不发公告就杀死一个产品这种行为，很多网友是不满意的。但是对关闭AI检测器本身倒是有不少人表示赞同，特别是学生群体。太多老师相信这玩意有效，大量冤枉学生用AI作弊，已经变成了一场猎巫运动。准确率和瞎猜差不多这个官方检测工具，准确率究竟有多低呢？OpenAI自己给出的数据，只能正确识别26%的AI生成文本，同时冤枉9%的人类编写文本。1月份刚发布时就被网友总结为“和瞎猜差不多”。另外有人做过实验发现，市面上各种检测工具会把圣经、美国宪法等历史文本都被判定可能为AI编写，总不能写下这些内容的历史人物都是时间穿越者吧？但还是有很多老师试图用各种检测方法来检查学生作业。最著名的一次，得克萨斯农工大学一位教授差点判定半个班的学生延毕。目前最新的趋势是，教师要求学生用在线文档写作业并检查编辑记录，但聪明的学生也能找到规避办法。最终对于教育领域，有人提出可能大作业/课程论文将成为历史，闭卷考试或口语考试将成为主流。目前的检测方法都能规避网友指出，OpenAI同时开发生成和检测工具本身就是矛盾的。如果一边做的好就意味着另一边没做好，同时还有可能存在利益冲突。但是第三方开发的检测方法，可靠性也不高。最早被称为“ChatGPT克星”的是普林斯顿本科生EdwardTian开发的GPTZero，用复杂性和长短句的变化来衡量文章是否由AI生成。当时GPTZero计划专为教育工作者打造，老师可以把全班学生的作业丢进去检测。但到了7月份，作者承认已放弃了检测学生作弊这个方向，计划下个版本的GPTZero将不再检测文本是否由AI生成，而是突出最像人写的部分。另外一个很受关注的检测方法，是马里兰大学开发的水印法，要求大模型在生成文本的时候就藏下记号，并用统计方法识别。但是规避的办法也很简单，比如有人开发了简单的同义词替换工具，就能破坏统计特征。甚至有人开始怀疑，人们到底是为了什么非要区分这个。就像数字到底是人计算的还是计算机完成的，早就没人在意了。演讲者的稿是自己写的还是秘书写的，不是也没人在意吗。人类行为学研究，正在用AI充当被试无法区分AI和人类的内容，似乎也不全是坏事。已经有心理实验用AI代替人类被试加速研究了。Cell子刊上一篇文章指出，在精心设计的实验场景中，ChatGPT的反应与大约95%的人类参与者的反应呈相关性。并且机器被试不会疲倦，使科学家能以前所未有的速度收集数据并测试有关人类行为的理论。而在最近一篇Science主刊的观点文章上，滑铁卢大学心理学教授IgorGrossman认为：“人工智能可以改变社会科学研究的游戏规则，谨慎的偏见管理和数据保真度是关键。”参考链接：[1]https://twitter.com/KevinAFischer/status/1683898199981928450[2]https://www.reddit.com/r/ChatGPT/comments/159j8rc/openai_quietly_kills_its_own_ai_classifier_citing/[3]https://news.ycombinator.com/item?id=36862850[4]https://www.cell.com/trends/cognitive-sciences/fulltext/S1364-6613(23)00098-0[5]https://www.science.org/doi/10.1126/science.adi1778[6]https://theconversation.com/beyond-the-hype-how-ai-could-change-the-game-for-social-science-research-208086...PC版：https://www.cnbeta.com.tw/articles/soft/1373249.htm手机版：https://m.cnbeta.com.tw/view/1373249.htm

OpenAI 悄然关闭其人工智能检测工具

OpenAI悄然关闭其人工智能检测工具一月份，人工智能巨头OpenAI宣布推出一款工具，AI生成文本分类器，该工具能够用于区分由人类编写或是人工智能生成的文本，用于辅助解决自动化误导性活动和学术欺骗等问题。半年后，这个工具就死了，因为它无法完成其设计目的。这就上周，OpenAI悄悄地断开了其AI检测工具AIClassifier，因为该公司表示该工具的准确率较低。OpenAI写道：“我们正在努力整合反馈，目前正在研究更有效的文本来源技术，并承诺开发和部署机制，使用户能够了解音频或视觉内容是否是人工智能生成的。”——

堪萨斯大学的研究人员称其ChatGPT协助论文检测技术的准确率达到99%

堪萨斯大学的研究人员称其ChatGPT协助论文检测技术的准确率达到99%已经有一些人尝试建立ChatGPT检测器，有几十家公司正在竞争建立人工智能检测技术。但到目前为止，没有一个方案能很好地发挥作用，即使是由开罚ChatGPT的公司OpenAI打造的方案。现有的工具效果很差，基本上没有用处。论文中描述的ChatGPT发现者只是为了在特定情况下工作而建立的，但其报告的成功似乎很有希望。在构建过程中，研究人员说他们已经发现了人工智能写作的蛛丝马迹。这篇经过同行评议并发表在《细胞报告-物理科学》上的论文，描述了一种能嗅出人工智能撰写的学术研究文章的技术。该研究选择了一组由人类作者撰写的64篇科学研究文章，涉及不同的学科--从生物学到物理学。他们将这些数据输入ChatGPT，并利用它产生了一个128篇人工智能文章的数据集，其中总共有1276段价值不菲的聊天机器人产生的语句。科学家们使用这些假的段落来建立他们的ChatGPT检测算法。然后他们把一个新的数据集放在一起，用30篇真正的文章和60篇ChatGPT写的文章来测试他们的算法，总共有1210段。研究人员称，他们的算法100%地检测到了由ChatGPT编写的整篇文章。在段落层面上，其准确性较低，但仍然令人印象深刻：该算法发现了92%的人工智能生成段落。研究人员希望其他人能够利用他们的工作，根据他们自己的利基和目的定制检测软件。该论文的作者、堪萨斯大学的化学教授HeatherDesaire在接受EurekAlert采访时说："我们努力创造一种可获得的方法，以便在很少的指导下，甚至高中生也能为不同类型的写作建立一个人工智能检测器。有必要解决人工智能写作的问题，人们不需要计算机科学学位就能在这个领域做出贡献。"该论文说，ChatGPT的工作有一些明显的迹象。首先，人类作家写的段落更长，使用的词汇量更大，包括更多的标点符号，并倾向于用"然而"、"但是"和"虽然"等词来限定他们的陈述。ChatGPT在引用数字和提及其他科学家等方面也不太具体。对于希望惩罚作弊的高中老师来说，堪萨斯大学研究人员建立的模型并不能马上拿来用。该算法是为学术写作而建立的，特别是在科学杂志上看到的那种学术写作。这对导师和管理人员来说是个耻辱，他们在过去六个月里对ChatGPT促成的抄袭行为感到恐慌。然而，理论上可以使用同样的技术来建立一个检测其他类型写作的模型。当你考虑到一个事实，即作者可以很容易地对一段聊天机器人的写作进行一些小调整，使其更难被发现，整个方案的有效性就会崩溃。尽管如此，研究人员仍将这项工作描述为"概念证明"，并表示他们可以通过更大的数据集开发出更强大、也许更准确的工具。尽管这些结果可能很有希望，但科技公司和人工智能推动者表示，像ChatGPT这样的工具还处于起步阶段。如果人工智能继续以我们在过去几年中看到的迅猛速度发展，像这样的检测方法是否会站得住脚，现在还无法说。大型语言模型越是接近于复制有血有肉的人类写作的杂音，就越难识别出机器人语言的痕迹。阅读文献：https://www.cell.com/cell-reports-physical-science/fulltext/S2666-3864(23)00200-X...PC版：https://www.cnbeta.com.tw/articles/soft/1364689.htm手机版：https://m.cnbeta.com.tw/view/1364689.htm

人工智能不能说的小秘密：斯坦福大学研究人员揭露文本检测器的缺陷

人工智能不能说的小秘密：斯坦福大学研究人员揭露文本检测器的缺陷资深作者、斯坦福大学的詹姆斯-邹（JamesZou）说："我们目前的建议是，我们应该非常小心，也许应该尽量避免使用这些检测器。如果用这些检测器来审查求职申请、大学入学论文或高中作业等，可能会产生重大影响。"像OpenAI的ChatGPT聊天机器人这样的人工智能工具可以撰写论文、解决科学和数学问题，并生成计算机代码。美国各地的教育工作者越来越关注在学生作业中使用人工智能的问题，他们中的许多人已经开始使用GPT检测器来筛选学生的作业。这些检测器是声称能够识别文本是否由人工智能生成的平台，但其可靠性和有效性仍有待检验。邹和他的团队对七种流行的GPT检测器进行了测试。他们用这些检测器检测了91篇由非英语母语人士撰写的英语论文，这些文章是为了参加一个被广泛认可的英语水平测试--托福考试（TestofEnglishasaForeignLanguage）。这些平台错误地将一半以上的文章标记为人工智能生成，其中一个检测器将近98%的文章标记为人工智能所写。相比之下，这些检测器能将超过90%的美国八年级学生撰写的作文正确归类为人工生成。邹解释说，这些检测器的算法是通过评估文本的复杂性（perplexity）来工作的，而文本的复杂性是指文章中选词的出人意料程度。"如果你使用的是常见的英文单词，那么检测器就会给出较低的易混度分数，这意味着我的文章很可能会被标记为人工智能生成。如果你使用的是复杂的高级词汇，那么它就更有可能被算法归类为人类撰写的文章。这是因为像ChatGPT这样的大型语言模型经过训练，可以生成低复杂度的文本，从而更好地模拟普通人的说话方式。"因此，非英语母语写作者所采用的简单选词会使他们更容易被标记为使用了人工智能。然后，研究小组将人类撰写的托福作文放入ChatGPT，并提示它使用更复杂的语言编辑文本，包括用复杂词汇替换简单词汇。GPT检测器将这些人工智能编辑的文章标记为人类撰写的文章。邹说："在课堂环境中使用这些检测器时，我们应该非常谨慎，因为仍然存在很多偏差，而且它们很容易被愚弄，只需进行最低限度的提示设计即可。使用GPT检测器的影响还可能超出教育领域。例如，Google等搜索引擎会贬低人工智能生成的内容，这可能会无意中压制非英语母语写作者的声音。"虽然人工智能工具可以对学生的学习产生积极影响，但在投入使用之前，GPT检测器还需要进一步加强和评估，用更多样化的写作类型来训练这些算法可能是改进这些检测器的一种方法。...PC版：https://www.cnbeta.com.tw/articles/soft/1381495.htm手机版：https://m.cnbeta.com.tw/view/1381495.htm

人工智能检测器认为《美国宪法》是由人工智能编写的

人工智能检测器认为《美国宪法》是由人工智能编写的尽管依靠人工智能工具来检测人工智能生成的作文很有诱惑力，但迄今为止的证据表明，这些工具并不可靠。由于存在假阳性，GPTZero、ZeroGPT和OpenAI自己的文本分类器等人工智能写作检测器无法检测由ChatGPT等大型语言模型组成的文本。如果你将美国最重要的法律文件《美国宪法》输入这种检测工具中，它会告诉你该文件几乎肯定是由人工智能撰写的。同样的情况也发生在《圣经》选段中。来源，来自：雷锋频道：@kejiqu群组：@kejiquchat投稿：@kejiqubot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人