斯坦福大学推出DetectGPT 帮助教育工作者反击ChatGPT生成的论文

斯坦福大学推出DetectGPT帮助教育工作者反击ChatGPT生成的论文最近，斯坦福大学的一个研究小组提出了一种名为DetectGPT的新方法，旨在成为打击高等教育中生成文本的首批工具之一。该方法是基于这样的想法：由LLM生成的文本通常在模型的对数概率函数的负曲率区域的特定区域徘徊。通过这种洞察力，该团队开发了一种新的标准用于判断文本是否是机器生成的，这并不依赖于训练人工智能或收集大型数据集来比较文本。这种方法被称为"zero-shot"，允许DetectGPT检测机器写的文本，而不需要了解用于生成文本的人工智能。它的操作与其他需要训练"分类器"和真实及生成段落数据集的方法形成鲜明对比。该团队在AI自动生成新闻文章的数据集上测试了DetectGPT（大概是去年CNET的一些文章），它在检测机器生成的文本方面的表现优于其他方法。具体来说，他们发现DetectGPT提高了对20B参数GPT-NeoX生成的新闻文章的检测准确性，从基线GPT-NeoX的0.81AUROC提高到DetectGPT的0.95AUROC，检测性能有了实质性的提高，并表明DetectGPT可能是一种有前途的方法，可以仔细检查识别机器生成的文本。DetectGPT是一种检测机器生成的文本的新方法，它利用了LLM生成的文本的独特特征。它是一种不需要任何额外数据或训练的零散方法，使其成为识别机器生成的文本的高效和有效工具。随着LLM的使用继续增长，检测机器生成的文本的相应系统的重要性将变得越来越关键，可以在许多领域产生重大影响，它的进一步发展可能对许多领域都有利。了解更多：https://ericmitchell.ai/detectgpt/...PC版：https://www.cnbeta.com.tw/articles/soft/1341433.htm手机版：https://m.cnbeta.com.tw/view/1341433.htm

在Telegram中查看

相关推荐

人工智能不能说的小秘密：斯坦福大学研究人员揭露文本检测器的缺陷

人工智能不能说的小秘密：斯坦福大学研究人员揭露文本检测器的缺陷资深作者、斯坦福大学的詹姆斯-邹（JamesZou）说："我们目前的建议是，我们应该非常小心，也许应该尽量避免使用这些检测器。如果用这些检测器来审查求职申请、大学入学论文或高中作业等，可能会产生重大影响。"像OpenAI的ChatGPT聊天机器人这样的人工智能工具可以撰写论文、解决科学和数学问题，并生成计算机代码。美国各地的教育工作者越来越关注在学生作业中使用人工智能的问题，他们中的许多人已经开始使用GPT检测器来筛选学生的作业。这些检测器是声称能够识别文本是否由人工智能生成的平台，但其可靠性和有效性仍有待检验。邹和他的团队对七种流行的GPT检测器进行了测试。他们用这些检测器检测了91篇由非英语母语人士撰写的英语论文，这些文章是为了参加一个被广泛认可的英语水平测试--托福考试（TestofEnglishasaForeignLanguage）。这些平台错误地将一半以上的文章标记为人工智能生成，其中一个检测器将近98%的文章标记为人工智能所写。相比之下，这些检测器能将超过90%的美国八年级学生撰写的作文正确归类为人工生成。邹解释说，这些检测器的算法是通过评估文本的复杂性（perplexity）来工作的，而文本的复杂性是指文章中选词的出人意料程度。"如果你使用的是常见的英文单词，那么检测器就会给出较低的易混度分数，这意味着我的文章很可能会被标记为人工智能生成。如果你使用的是复杂的高级词汇，那么它就更有可能被算法归类为人类撰写的文章。这是因为像ChatGPT这样的大型语言模型经过训练，可以生成低复杂度的文本，从而更好地模拟普通人的说话方式。"因此，非英语母语写作者所采用的简单选词会使他们更容易被标记为使用了人工智能。然后，研究小组将人类撰写的托福作文放入ChatGPT，并提示它使用更复杂的语言编辑文本，包括用复杂词汇替换简单词汇。GPT检测器将这些人工智能编辑的文章标记为人类撰写的文章。邹说："在课堂环境中使用这些检测器时，我们应该非常谨慎，因为仍然存在很多偏差，而且它们很容易被愚弄，只需进行最低限度的提示设计即可。使用GPT检测器的影响还可能超出教育领域。例如，Google等搜索引擎会贬低人工智能生成的内容，这可能会无意中压制非英语母语写作者的声音。"虽然人工智能工具可以对学生的学习产生积极影响，但在投入使用之前，GPT检测器还需要进一步加强和评估，用更多样化的写作类型来训练这些算法可能是改进这些检测器的一种方法。...PC版：https://www.cnbeta.com.tw/articles/soft/1381495.htm手机版：https://m.cnbeta.com.tw/view/1381495.htm

斯坦福大学复制出ChatGPT人工智能训练成本不到600美元

斯坦福大学复制出ChatGPT人工智能训练成本不到600美元六个月前，只有研究人员和博学者在关注大型语言模型的发展。但去年年底ChatGPT的推出震惊了世界：机器现在能够以一种与人类几乎没有区别的方式进行交流。它们能够在几秒钟内写出文本，甚至是跨越一系列令人眼花缭乱的主题领域的编程代码，而且往往是非常高的质量标准。正如GPT-4的推出所表明的那样，它们正在以流星般的速度进步，它们将像其他技术一样从根本上改变人类社会，因为它们有可能将一系列工作任务自动化--特别是在白领工人中，人们以前可能认为这是不可能的。许多其他公司--特别是Google、苹果、Meta、百度和亚马逊等--也不甘落后，它们的人工智能很快就会涌入市场，附着在各种可能的应用和设备上。如果你是Bing的用户，语言模型已经出现在你的搜索引擎中，而且它们很快就会出现在其他地方。它们将出现在你的车里、你的手机里、你的电视上，当你试图给一家公司打电话时，它们会在电话的另一端等待。过不了多久，你就会在机器人中看到它们。有一点值得安慰的是，OpenAI和其他这些大公司都意识到这些机器在垃圾邮件、错误信息、恶意软件、有针对性的骚扰和其他各种大多数人都认为会使世界变得更糟的使用情况方面的疯狂潜力。他们花了好几个月的时间在产品发布前手动削减这些能力。OpenAI首席执行官萨姆-奥特曼（SamAltman）是许多担心政府行动不够迅速的人之一，没有以公共利益的名义为人工智能设置围栏。但是，你可以花600美元自己建立一个语言模型呢？斯坦福大学的一个研究小组已经做到了这一点，其令人印象深刻的表现突出了整个行业及其令人敬畏的能力可能会迅速失去控制。斯坦福大学的一个研究小组从Meta的开源LLaMA7B语言模型开始--这是现有几个LLaMA模型中最小和最便宜的。在一万亿个"tokens"上进行预训练，这个小语言模型有一定的能力，但它在大多数任务中会明显落后于ChatGPT；GPT模型的主要成本，甚至主要竞争优势，主要来自OpenAI在后期训练中投入的大量时间和人力。读了十亿本书是一回事，但通过大量的问答式对话来教导这些AI的实际工作是另一回事。因此，随着LLaMA7B模型的建立和运行，斯坦福大学的团队基本上要求GPT采用175个由人类编写的指令/输出对，并开始以同样的风格和格式生成更多的指令/输出对，每次20个。这是通过OpenAI提供的一个有用的API自动完成的，在很短的时间内，该团队有大约52000个对话样本，用于后期训练LLaMA模型。生成这些大量训练数据的成本不到500美元。然后，他们用这些数据来微调LLaMA模型--这个过程在8台80GB的A100云处理计算机上花了大约3个小时，这又花费了不到100美元。斯坦福大学团队使用GPT-3.5给LLaMA7B提供了一套关于如何完成其工作的指令接下来，他们对产生的模型进行了测试，他们称之为Alpaca，与ChatGPT的底层语言模型在各种领域（包括电子邮件写作、社交媒体和生产力工具）进行对比。在这些测试中，Alpaca赢得了90项，GPT赢得了89项。"鉴于模型规模小，指令跟随数据量不大，我们对这一结果相当惊讶，"该团队写道。"除了利用这个静态评估集，我们还对Alpaca模型进行了交互式测试，发现Alpaca在不同的输入集上往往表现得与text-davinci-003[GPT-3.5]类似。我们承认，我们的评估在规模和多样性方面可能是有限的"。该团队表示，如果他们寻求优化过程，他们可能会更便宜地完成这项工作。值得注意的是，任何希望复制人工智能的人现在都可以获得能力更强的GPT4.0，以及几个更强大的LLaMA模型作为基础，当然也没有必要停留在52000个问题上。斯坦福大学的团队已经在Github上发布了这项研究中使用的52000个问题，以及生成更多问题的代码，还有他们用来微调LLaMA模型的代码。该团队指出，"我们还没有对模型进行微调，使其安全无害"，并要求任何建立这种模型的人报告他们发现的安全和道德问题。那么，有什么可以阻止任何人现在花100美元左右创建他们自己的人工智能，并以他们选择的方式训练它？OpenAI的服务条款确实带来了一些法律问题，它说："你不能......使用服务的输出来开发与OpenAI竞争的模型"。而Meta说它在现阶段只允许学术研究人员在非商业许可下使用LLaMA，尽管这是一个有争议的问题，因为整个LLaMA模型在公布一周后就在4chan上泄露了。哦，还有一个小组说它已经设法消除了云计算成本，在Github上发布了更多的代码，可以在树莓派上运行，并在单个高端nVidiaRTX4090显卡上在5小时内完成训练过程。这一切意味着什么？现在可以建立无限数量的不受控制的语言模型--由具有机器学习知识、不在乎条款和条件或软件盗版的人建立--只需花钱，而且并不是高不可攀。这也给致力于开发自己的语言模型的商业人工智能公司泼了一盆冷水；如果所涉及的大部分时间和费用都发生在训练后阶段，而这项工作或多或少可以在回答50或100000个问题的时间内被窃取，那么公司继续砸钱是否有意义？而对于我们其他人来说，嗯，很难说，但这个软件的强大功能肯定可以为专制政权、网络钓鱼行动、垃圾邮件发送者或任何其他可疑的人所用。精灵已经从瓶子里出来了，而且似乎已经非常容易复制和重新训练了。...PC版：https://www.cnbeta.com.tw/articles/soft/1350283.htm手机版：https://m.cnbeta.com.tw/view/1350283.htm

用ChatGPT半小时写成本科论文“反ChatGPT”束手无策？

用ChatGPT半小时写成本科论文“反ChatGPT”束手无策？根据国外Study.com网站在今年1月向1000名18岁以上学生发起的调查显示，48%的学生用ChatGPT完成小测验，53%的学生用ChatGPT写论文。ChatGPT在撰写格式论文、通过专业考试等领域的惊艳表现，让学生们欢呼雀跃的同时，也让高校、研究机构等率先担忧和警惕起来，“反ChatGPT”在学术圈率先成为一股新趋势。近日，香港大学向师生发出内部邮件，表明禁止在港大所有课堂、作业和评估中使用ChatGPT或其他AI工具。如教师怀疑学生使用ChatGPT或其他AI工具，可要求学生就其作业进行讨论、进行额外口试及考试等措施。上周，《暨南学报(哲学社会科学版)》、《天津师范大学学报(基础教育版)》发布声明，提出暂不接受任何大型语言模型工具(例如：ChatGPT)单独或联合署名的文章。在美国和欧洲，更多高校和学术期刊等对ChatGPT的封杀通知出得更早一些。但是，单纯提出“封杀ChatGPT”就能杜绝论文抄袭和剽窃了吗？此前大热的“AI换脸”应用曾催生出一批“反AI换脸”的鉴别工具。现在，鉴别是否ChatGPT生成的论文，是否有可行的方法呢？聚焦在针对合成音视频的鉴别技术研发的瑞莱智慧（RealAI），其副总裁唐家渝向TechWeb表示，目前鉴别ChatGPT生成物的难点在于，机器与人类撰写的文本差异性特征较少，机器合成文本的结果无论从结构和语义角度都能较好地遵循人类书写的规则，同时一个真人说话的方式也可能是多变的、结构有误的，因此很难单纯从文本本身就鉴别出是否由ChatGPT生成。目前，RealAI针对合成文本的鉴别能力已在建设中，近期会有demo推出。数字水印用来“反ChatGPT”是一厢情愿在“反ChatGPT”的技术流中，数字水印技术一度被热炒。但是数字水印真能用来反ChatGPT吗？数字水印是一种可以用于保护文本、图像、音频和视频等数字内容不受未经授权的复制和分发的技术。数字水印可以将一些隐蔽的标识信息嵌入到数字内容中，这些标识信息通常不会对数字内容本身造成影响，但可以帮助鉴别数字内容的真实来源和版权信息。人们对用数字水印反ChatGPT有两种想象。一种是，对ChatGPT生成的内容打上数字水印，以标明这些内容是ChatGPT所写，实现反ChatGPT。但这需要ChatGPT等AI内容生成公司的配合，也就是他们愿意这么做。ChatGPT的开发商OpenAI此前曾表示在考虑通过对AI系统生成的内容加水印的方法来辅助辨别文本是否出自AI。不过截止目前并没有看到OpenAI采取该项行动。就算AI内容生成企业愿意在生成的内容中加入数字水印，但在相关行业专家看来，数字水印只是一个技术手段，不能解决所有的抄袭问题。有些人可能会使用各种方法来删除数字水印，或者通过改变一些单词或句子的顺序来规避数字水印的检测。AI生成内容通常是基于大量的训练数据和模型参数生成的。用数字水印反ChatGPT的另一种想象是，把内容打上数字水印标明版权身份，避免被ChatGPT等AI模型用于训练，从而防止被模仿和抄袭。但是这种想法多少有点一厢情愿。数字水印并不能完全保证内容不会被用于训练模型。一些不法分子可能会使用各种技术手段来尝试删除数字水印，或者通过对文章进行修改来绕过数字水印的检测。此外，一些不道德的人也可能会无视数字水印，盗用版权内容作为训练数据。“反ChatGPT”这些“神器”或可一用目前用于检测文章是否由AI生成的工具全球有几款，包括：OpenAIGPT-3Playground：由OpenAI开发的一个在线应用程序，用于测试和探索人工智能语言模型GPT-3的功能。在这个应用程序中，可以输入一些文本，并由GPT-3模型自动生成下一句话或者完整的文章。这个应用程序也可以用来测试一篇文章是否是由GPT-3等语言模型生成的。Grover：由AllenInstituteforArtificialIntelligence开发的一个用于检测虚假新闻和伪造的文章的工具。Grover可以分析一篇文章的语言风格和结构，并尝试区分由人类和人工智能生成的文章。这个工具还可以识别一些常见的伪造手段和技巧。AI21Writer’sStudio：AI21Labs开发的一个在线写作工具，可以为用户提供自动建议和编辑服务，帮助他们写出更加流畅和准确的文章。这个工具也可以用于检测一篇文章是否是由人工智能生成的。Botometer：由IndianaUniversity和UniversityofSouthernCalifornia联合开发的一个Twitter机器人检测工具。Botometer可以分析一个Twitter账号的活动和行为，判断其是否是由一个真实的用户或者一个自动化机器人管理的。上述这些工具都可以用于检测一篇文章或论文是否由人工智能生成的，但是需要注意的是，它们都不是百分之百准确的。因此，在评估一篇文章或论文是否AI所写时，最好结合多种方法和技巧，进行综合分析和判断。以ChatGPT为例，唐家渝向TechWeb提到，“辩别“ChatGPT”生成物一是利用好查重机制和技术，防止ChatGPT通过改写、总结等方式生成学术文章；二是从内容本身来说，ChatGPT目前还不能完全保证学术文章的逻辑严谨、主题一致，可以从语义层面加以辨别。”另外，从B站up主分享的ChatGPT写出的本科论文的情况来看，检查文章的来源和背景，如果这篇论文来自一个未知或者不可信的来源，就需要更加谨慎地对它进行评估了。关于ChatGPT可能引发的论文抄袭现象，前新东方在线COO潘欣则认为“这种担忧基本不需要。”“没有ChatGPT 的时候就没有抄论文、抄作业的了吗？可以信一点就行了，能用技术导致出现的问题，一定可以靠技术+行政手段解决掉。”在学生党看来，用ChatGPT写论文，里面数据，论据甚至引用的文献都是瞎编的，建议让ChatGPT做些辅助工作就好，比如给论文大纲或大致方向的建议等。也有学生认为需要自律，“反ChatGPT软件陆续上线，算法只会越来越完善，就算现在蒙混过关过关，但被查出来只是时间问题。”...PC版：https://www.cnbeta.com.tw/articles/soft/1345709.htm手机版：https://m.cnbeta.com.tw/view/1345709.htm

知网AI生成文本检测专利公布可检测文本是否为AI生成

知网AI生成文本检测专利公布可检测文本是否为AI生成据天眼查，近日，同方知网数字出版技术股份有限公司申请的“一种AI生成文本的检测方法、装置、介质及设备”专利公布。摘要显示，通过将待检测文本输入文本分类模型，得到文本为AI生成的第一概率值；基于待检测文本及目标损失函数，得到文本的偏离度特征；基于待检测文本、预测模型及预设字典，得到文本的扩散度特征值；基于待检测文本，得到文本的句子长度特征及字词分布特征；根据上述第一概率值、偏离度特征、扩散度特征值、句子长度特征及字词分布特征，判定文本是否为AI生成文本。该专利不仅检测效率高，且不受审核人员的主观影响，检测结果更加准确。消息来源:

知网 AI 生成文本检测专利公布可检测文本是否为 AI 生成

知网AI生成文本检测专利公布可检测文本是否为AI生成天眼查App显示，近日，同方知网数字出版技术股份有限公司申请的“一种AI生成文本的检测方法、装置、介质及设备”专利公布。摘要显示，通过将待检测文本输入文本分类模型，得到文本为AI生成的第一概率值；基于待检测文本及目标损失函数，得到文本的偏离度特征；基于待检测文本、预测模型及预设字典，得到文本的扩散度特征值；基于待检测文本，得到文本的句子长度特征及字词分布特征；根据上述第一概率值、偏离度特征、扩散度特征值、句子长度特征及字词分布特征，判定文本是否为AI生成文本。该专利不仅检测效率高，且不受审核人员的主观影响，检测结果更加准确。

斯坦福大学发布开源远程操作机器人系统 ALOHA

斯坦福大学发布开源远程操作机器人系统ALOHA是一个低成本的开源硬件系统，可用于双手远程操作机器人执行精细任务(例如给线缆轧带或剥鸡蛋壳)、动态任务(例如颠乒乓球)以及接触式丰富的任务(例如给自行车上链条)。作者TonyZhao基于Transformer开发了一种动作学习算法，ALOHA可以直接从实际演示中执行端到端的模仿学习，然后自主完成相同或类似的任务，也可根据实时反馈调整动作以适应不同的环境和情况。以往执行这些任务通常需要高端机器人、精确的传感器或仔细的校准，这可能既昂贵又难以设置，而ALOHA开源了有关设置的所有内容，并准备了详细教程，任何人都可以3D打印组件然后运行现成的机器人。——投稿：@ZaiHuabot频道：@TestFlightCN

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人