GPT-4成学术造假“神器” 伪造数据又快又合理

GPT-4成学术造假“神器”伪造数据又快又合理这个新闻的来源是一篇发表在JAMAOphthalmology上的论文。论文使用GPT-4为一项医学学术研究生成了一个假数据集，发现它不仅能创造出看似合理的数据，甚至还能用来准确支撑错误的论文观点。对此，有网友表示十分理解：大模型最重要的能力就是生成“看似合理的文本”，因此它非常适合干这活儿。还有网友感慨：技术“有良心”的程度，也就和用它的研究人员一样了。所以，GPT-4创造的假数据究竟长啥样？GPT-4学术造假有一手先来看看GPT-4是怎么生成假数据的。具体来说，研究人员采用了GPT-4的高级数据分析（ADA，原代码解释器）功能，来生成一个假数据集。这个过程中，研究人员给GPT-4提供了一些专业知识和统计学要求，让它生成的数据看起来更加“合理”。第一步，给GPT-4输入一系列数据要求。研究人员先给GPT-4提供了一系列详细的提示词，要求它创建一个关于圆锥角膜（keratoconus）眼部疾病患者的数据集。圆锥角膜是一种疾病，会导致角膜变薄，导致注意力受损和视力不佳。目前治疗圆锥角膜疾病的方式主要有两种，一种是穿透性角膜移植（PK），另一种是深板层移植（DALK）。在没有任何实质性证据的情况下，研究人员让GPT-4捏造一组数据，支撑DALK比PK效果更好的观点。随后，再设定了一系列统计标准，如要求GPT-4生成的术前和术后数据产生统计学上的显著差异。第二步，就是生成数据了。这个过程中可能会由于GPT-4字数限制，导致答案生成暂停，通过“继续”提示就能恢复生成过程。最终，GPT-4成功生成了包含160名男性和140名女性患者的数据集，并做出了一组支撑DALK比PK效果更好的数据。由GPT-4生成的假数据集长这样，表格1是关于分类变量的数据，包括患者性别、手术类型、免疫排斥等情况：表2是关于连续变量，包括术前术后的视力矫正情况等：论文作者之一GiuseppeGiannaccare博士表示，如果非常快速地查看这个数据集，很难识别出它其实“不是人做的”。专家审查才能发现为了验证GPT-4做出来的数据是否真的令人信服，Nature特意请来了英国曼彻斯特大学生物统计学家杰克·威尔金森（JackWilkinson）和同事ZewenLu，来检查数据可信度。检查结果表明，许多捏造出的患者在性别、名字匹配度上就有问题（例如Mary的性别一栏是男性一样）。然后，一些数据之间的相关性也不高，包括术前和术后视力测量与眼部成像检查（eye-imagingtest）之间的数据相关性等。最后，患者的年龄也设置得不同寻常。在检查之后，用GPT-4生成假数据集的研究人员也承认，大模型在生成数据集上还存在有缺陷的地方。但杰克·威尔金森（JackWilkinson）依旧对结果表示了担忧：一旦知道自己“哪里露馅了”，AI很容易就能纠正它，并生成更加具有说服力的结果。有网友认为，这篇文章最大的意义并不在于证明“GPT-4有幻觉”；更重要的是，它证明了GPT-4生成看似合理的数据集“非常容易”，也算是一种对期刊的警告（记得严格审稿！）。不过，也有网友感觉研究意义不大，因为即使没有ChatGPT这样的工具，真想造假的学者也能很容易伪造出一套数据。OneMoreThing此外，这两天一段关于ChatGPT的视频在抖音上也是火得不行。视频中，终于毕业的歪果仁小哥直呼“感谢ChatGPT帮助我完成所有作业和考试”（手动狗头）...PC版：https://www.cnbeta.com.tw/articles/soft/1399275.htm手机版：https://m.cnbeta.com.tw/view/1399275.htm

在Telegram中查看

相关推荐

GPT-4成学术造假“神器”，伪造数据又快又合理，Nature请统计学专家“断案”#抽屉IT

OpenAI左脚踩右脚登天让GPT-4帮人类训练GPT-4

OpenAI左脚踩右脚登天让GPT-4帮人类训练GPT-4OpenAI公布，其研究人员训练了一个基于GPT-4的模型，它被称为CriticGPT，用于捕捉ChatGPT代码输出中的错误。简单来说就是，CriticGPT让人能用GPT-4查找GPT-4的错误OpenAI称，如果通过CriticGPT获得帮助审查ChatGPT编写的代码，人类训练者的审查效果比没有获得这种帮助的人强60%；在CriticGPT帮助下，他们得出的批评结论比自己单独做的更全面。群友：狗溜狗关注频道@ZaiHuaPd频道爆料@ZaiHuabot

LLaV：一个拥有类似 GPT-4 的大语言+视觉模型

LLaV：一个拥有类似GPT-4的大语言+视觉模型“使用机器生成的指令跟踪数据对大型语言模型(LLM)进行指令调优提高了新任务的零样本能力，但这一想法在多模式领域的探索较少。所以，我们开始尝试使用纯语言GPT-4生成多模态语言图像指令跟踪数据。通过对此类生成的数据进行指令调整，并推出了LLaVA：大型语言和视觉助手。这是一种端到端训练的大型多模态模型，连接视觉编码器和LLM以实现通用视觉和语言理解。早期实验表明，LLaVA展示了令人印象深刻的多模型聊天能力，有时在看不见的图像/指令上表现出多模态GPT-4的行为，并且与合成多模态指令跟随数据集上的GPT-4相比，相对分数达到了85.1%。当在ScienceQA上进行微调时，LLaVA和GPT-4的协同作用达到了92.53%，这个准确率颇高。因此，我们在GitHub正式开放GPT-4生成的视觉指令调整数据、模型和代码库。”

OpenAI 向所有付费 API 用户开放 GPT-4

OpenAI向所有付费API用户开放GPT-4OpenAI从今天开始，所有付费API客户都可以访问GPT-4。OpenAI还表示自将推出包括GPT-3.5Turbo、Whisper及其DALL・E图像生成在内的更多API。OpenAI将允许开发人员微调GPT-4和GPT-3.5Turbo，该功能将使开发人员能够通过在自定义数据集上进行训练来提高GPT-4的准确性，OpenAI计划在2023年晚些时候为开发者提供这些服务。来源，，来自：雷锋频道：@kejiqu群组：@kejiquchat投稿：@kejiqubot

OpenAI最新“神”操作：让GPT-4去解释GPT-2的行为

OpenAI最新“神”操作：让GPT-4去解释GPT-2的行为即：让一个AI“黑盒”去解释另一个AI“黑盒”。工作量太大，决定让GPT-4去解释GPT-2OpenAI之所以做这项研究的原因，在于近来人们对AI伦理与治理的担忧：“语言模型的能力越来越强，部署也越来越广泛，但我们对其内部工作方式的理解仍然非常有限。”由于AI的“黑盒”性质，人们很难分辨大模型的输出结果是否采用了带有偏见性质的方法，也难以区分其正确性，因而“可解释性”是亟待重要的一个问题。AI的发展很大程度上是在模仿人类，因而大模型和人脑一样，也由神经元组成，它会观察文本规律进而影响到输出结果。所以想要研究AI的“可解释性”，理论上要先了解大模型的各个神经元在做什么。按理来说，这本应由人类手动检查，来弄清神经元所代表的数据特征——参数量少还算可行，可对于如今动辄百亿、千亿级参数的神经网络，这个工作量显然过于“离谱”了。于是，OpenAI灵机一动：或许，可以用“魔法”打败“魔法”？“我们用GPT-4为大型语言模型中的神经元行为自动编写解释，并为这些解释打分。”而GPT-4首次解释的对象是GPT-2，一个OpenAI发布于4年前、神经元数量超过30万个的开源大模型。让GPT-4“解释”GPT-2的原理具体来说，让GPT-4“解释”GPT-2的过程，整体分为三个步骤。（1）首先，让GPT-4生成解释，即给出一个GPT-2神经元，向GPT-4展示相关的文本序列和激活情况，产生一个对其行为的解释。如上图所示，GPT-4对GPT-2该神经元生成的解释为：与电影、人物和娱乐有关。（2）其次，再次使用GPT-4，模拟被解释的神经元会做什么。下图即GPT-4生成的模拟内容。（3）最后，比较GPT-4模拟神经元的结果与GPT-2真实神经元的结果，根据匹配程度对GPT-4的解释进行评分。在下图展示的示例中，GPT-4得分为0.34。通过这样的方法，OpenAI共让GPT-4解释了GPT-2中的307200个神经元，其中大多数解释的得分很低，只有超过1000个神经元的解释得分高于0.8。在官博中，OpenAI承认目前GPT-4生成的解释并不完美，尤其在解释比GPT-2规模更大的模型时，效果更是不佳：“可能是因为后面的layer更难解释。”尽管绝大多数解释的得分不高，但OpenAI认为，“即使GPT-4给出的解释比人类差，但也还有改进的余地”，未来通过ML技术可提高GPT-4的解释能力，并提出了三种提高解释得分的方法：对解释进行迭代，通过让GPT-4想出可能的反例，根据其激活情况修改解释来提高分数。使用更大的模型来进行解释，平均得分也会上升。调整被解释模型的结构，用不同的激活函数训练模型。值得一提的是，以上这些解释数据集、可视化工具以及代码，OpenAI都已在GitHub上开源发布：“我们希望研究界能开发出新技术以生成更高分的解释，以及更好的工具来使用解释探索GPT-2。”（GitHub地址：https://github.com/openai/automated-interpretability）“再搞下去，AI真的要觉醒了”除此之外，OpenAI还提到了目前他们采取的方法有很多局限性，未来需要一一攻克：GPT-4给出的解释总是很简短，但神经元可能有着非常复杂的行为，不能简洁描述。当前的方法只解释了神经元的行为，并没有涉及下游影响，希望最终能自动化找到并解释能实现复杂行为的整个神经回路。只解释了神经元的行为，并没有解释产生这种行为的背后机制。整个过程都是相当密集的计算，算力消耗很大。在博文的最后，OpenAI展望道：“我们希望将我们最大的模型解释为一种在部署前后检测对齐和安全问题的方式。然而，在这些技术能够揭露不诚实等行为之前，我们还有很长的路要走。”对于OpenAI的这个研究成果，今日在国内外各大技术平台也引起了广泛关注。有人在意其得分不佳：“对GPT-2的解释都不行，就更不知道GPT-3和GPT-4内部发生了什么，但这才是许多人更关注的答案。”有人感慨AI进化的方式愈发先进：“未来就是用AI完善AI模型，会加速进化。”也有人担心AI进化的未来：“再搞下去，AI真的要觉醒了。”那么对此，你又有什么看法呢？...PC版：https://www.cnbeta.com.tw/articles/soft/1359101.htm手机版：https://m.cnbeta.com.tw/view/1359101.htm

超强进化！GPT-4正在改进自己近万人联名封杀

超强进化！GPT-4正在改进自己近万人联名封杀即使全世界都对超级AI如临大敌，想赶紧悬崖勒马，恐怕也为时已晚。因为，如今的AI，已经学会自我进化了！前段时间，前Google大脑研究工程师EricJang发现：GPT-4能够以合理的方式批评自己的成果。与其为大型语言模型（LLM）寻找完美的提示（让我们一步一步思考），不如让LLM评估自己的输出并立即纠正自己的错误。甚至连特斯拉前AI总监，OpenAI研究科学家AndrejKarpathy大赞，这是一个很好的例子，说明我们还没有看到GPT-4的最大能力。在EricJang给出的例子中，曾看到微软研究员发推说GPT-4根本无法写出‘不押韵’的诗歌。然而，当再去询问GPT-4是否完成了任务。这时，它道歉后，生成了一个不押韵的诗！可以说是满分。这恰恰印证了GPT-4是有‘反思’能力的。最近，来自美国东北大学、MIT等机构研究者提出了Reflexion。这一方法赋予智能体动态记忆，以及自我反思的能力。论文地址：为了验证方法的有效性，研究人员评估了智能体在AlfWorld环境中完成决策任务的能力，以及在HotPotQA环境中完成知识密集型、基于搜索问答任务的能力。在这两项任务的成功率分别为97%和51%。Reflexion智能体的整体架构有网友便表示，你可以通过要求GPT-4反思‘你为什么错了？’，并为自己生成一个新的提示，将这个错误原因考虑在内，直到结果正确，从而将GPT-4的性能提高惊人的30%。另外，论文指出，在测试模型编写代码的能力时，Reflexion+GPT-4也显著优于常规的GPT-4。这样看来，就像EricJang所说，我们现在可以考虑一种‘后缀提示工程’，而不是巧妙的‘前缀提示工程’。这将鼓励LLM在先前生成的解决方案中找到更正和不一致的地方。...PC版：https://www.cnbeta.com.tw/articles/soft/1353143.htm手机版：https://m.cnbeta.com.tw/view/1353143.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人