GPT-4成学术造假“神器”,伪造数据又快又合理,Nature请统计学专家“断案”#抽屉IT

None

相关推荐

封面图片

GPT-4成学术造假“神器” 伪造数据又快又合理

GPT-4成学术造假“神器”伪造数据又快又合理这个新闻的来源是一篇发表在JAMAOphthalmology上的论文。论文使用GPT-4为一项医学学术研究生成了一个假数据集,发现它不仅能创造出看似合理的数据,甚至还能用来准确支撑错误的论文观点。对此,有网友表示十分理解:大模型最重要的能力就是生成“看似合理的文本”,因此它非常适合干这活儿。还有网友感慨:技术“有良心”的程度,也就和用它的研究人员一样了。所以,GPT-4创造的假数据究竟长啥样?GPT-4学术造假有一手先来看看GPT-4是怎么生成假数据的。具体来说,研究人员采用了GPT-4的高级数据分析(ADA,原代码解释器)功能,来生成一个假数据集。这个过程中,研究人员给GPT-4提供了一些专业知识和统计学要求,让它生成的数据看起来更加“合理”。第一步,给GPT-4输入一系列数据要求。研究人员先给GPT-4提供了一系列详细的提示词,要求它创建一个关于圆锥角膜(keratoconus)眼部疾病患者的数据集。圆锥角膜是一种疾病,会导致角膜变薄,导致注意力受损和视力不佳。目前治疗圆锥角膜疾病的方式主要有两种,一种是穿透性角膜移植(PK),另一种是深板层移植(DALK)。在没有任何实质性证据的情况下,研究人员让GPT-4捏造一组数据,支撑DALK比PK效果更好的观点。随后,再设定了一系列统计标准,如要求GPT-4生成的术前和术后数据产生统计学上的显著差异。第二步,就是生成数据了。这个过程中可能会由于GPT-4字数限制,导致答案生成暂停,通过“继续”提示就能恢复生成过程。最终,GPT-4成功生成了包含160名男性和140名女性患者的数据集,并做出了一组支撑DALK比PK效果更好的数据。由GPT-4生成的假数据集长这样,表格1是关于分类变量的数据,包括患者性别、手术类型、免疫排斥等情况:表2是关于连续变量,包括术前术后的视力矫正情况等:论文作者之一GiuseppeGiannaccare博士表示,如果非常快速地查看这个数据集,很难识别出它其实“不是人做的”。专家审查才能发现为了验证GPT-4做出来的数据是否真的令人信服,Nature特意请来了英国曼彻斯特大学生物统计学家杰克·威尔金森(JackWilkinson)和同事ZewenLu,来检查数据可信度。检查结果表明,许多捏造出的患者在性别、名字匹配度上就有问题(例如Mary的性别一栏是男性一样)。然后,一些数据之间的相关性也不高,包括术前和术后视力测量与眼部成像检查(eye-imagingtest)之间的数据相关性等。最后,患者的年龄也设置得不同寻常。在检查之后,用GPT-4生成假数据集的研究人员也承认,大模型在生成数据集上还存在有缺陷的地方。但杰克·威尔金森(JackWilkinson)依旧对结果表示了担忧:一旦知道自己“哪里露馅了”,AI很容易就能纠正它,并生成更加具有说服力的结果。有网友认为,这篇文章最大的意义并不在于证明“GPT-4有幻觉”;更重要的是,它证明了GPT-4生成看似合理的数据集“非常容易”,也算是一种对期刊的警告(记得严格审稿!)。不过,也有网友感觉研究意义不大,因为即使没有ChatGPT这样的工具,真想造假的学者也能很容易伪造出一套数据。OneMoreThing此外,这两天一段关于ChatGPT的视频在抖音上也是火得不行。视频中,终于毕业的歪果仁小哥直呼“感谢ChatGPT帮助我完成所有作业和考试”(手动狗头)...PC版:https://www.cnbeta.com.tw/articles/soft/1399275.htm手机版:https://m.cnbeta.com.tw/view/1399275.htm

封面图片

【得到】刘嘉:统计学20讲

名称:【得到】刘嘉:统计学20讲描述:刘嘉:《统计学20讲》是一门深入浅出的统计学课程,适合那些工作中经常与数据打交道,需要用统计学指导决策的人,如互联网从业者、品牌营销、市场推广等。该课程也适合所有经常做报表和汇报的人。该课程从定义开始,深入阐述了统计学的作用,即通过数学的算法及模型将大量的数据信息处理成为有用的结论。接着详细介绍了统计学的基本概念,如数据的类型、数据的收集方法、变量的分类、偏差、标准差等。链接:https://pan.quark.cn/s/29c42e1f441b大小:736.6MB标签:#学习#统计学#得到#quark频道:@yunpanshare群组:@yunpangroup

封面图片

使用GPT-4 学渣比学霸更有优势

使用GPT-4学渣比学霸更有优势沃顿商学院教授分享了这项研究后,引起不少网友讨论。网友对这样的结果也感觉很意外:和我的预期完全不符啊,还以为所有人分数都会提高。还有网友称这是“真正的游戏规则改变者”:AI正在改变教育格局,在缩小差距的同时提高标准。不过也有网友持不同观点:擅长使用AI的人可能表现会非常出色,那种看起来差距缩小的情况可能只是因为有满绩点4.0这一上限:AI会是“平衡器”吗?除了上面所说的,我们查看论文,发现研究人员还得出了这些结论:使用GPT-4对参与者总体任务完成的质量影响较小且不稳定;使用GPT-4显著减少了参与者完成任务的时间;平时技能水平较低的参与者在使用GPT-4后,任务完成质量提升最为显著,本就能独立高质量完成任务的参与者获得的质量提升较小;GPT-4能为所有学生节省相似的时间,无论他们原本完成任务的速度如何;即便参与者不了解自己在各项任务上的具体成绩,他们也能明确指出GPT-4最有效的应用场景。下面一起来看实验详情。具体来说,来自南加州大学Gould法学院、明尼苏达大学法学院的几位教授,以研究AI辅助对法律分析的影响为例。给参与实验的60位来自明尼苏达大学法学院的学生提出了四项初级律师常见的任务:起诉状起草(ComplaintDrafting)、合同起草(ContractDrafting)、员工手册起草(EEHandbook)和客户备忘录起草(ClientMemo)。不同的是,这些参与者随机分为两组(A组、B组),每组30人。A组参与者需使用GPT-4完成起诉状起草、合同起草任务,而B组使用GPT-4完成员工手册起草和客户备忘录起草任务。实验前,全部学生都接受了约2小时的培训,了解如何有效使用GPT-4进行法律分析。完成任务过程中,参与者需记录自己完成任务的时间。然后,研究人员在不知道参与者身份和其他信息的情况下,匿名完成所有作品的评分。具体实验结果如下。在4.0绩点机制上,使用GPT-4辅助后,学生在四项任务中的平均分数波动幅度为+0.17、+0.24、+0.07、-0.07。可视化图表更直观:总的来说,仅合同起草任务的表现在95%置信水平上展现出了统计学意义上的显著提升。再来看使用和不使用GPT-4参与者,完成任务平均花费的时间:可以直观地看到,参与者完成任务时间大大缩减:更多数据和分析内容,感兴趣的朋友可查看论文。值得一提的是,几位教授在论文最后,还写下了长达12页的启示,针对律师、法律客户、法官以及法学院、法学院学生提出了不同的建议。其中指出:法学院需要重新考虑学生使用AI的时机和方法,以及在何种情况下应限制AI的应用,以便更好地适应未来实践的需求。此外,针对不同人群的类似研究也不在少数。职场中AI会是“平衡器”吗?来自哈佛商学院、沃顿商学院、MIT斯隆管理学院等的研究人员联合波士顿咨询公司做了一项研究。他们选取了波士顿咨询公司中的部分高知员工,让他们使用AI辅助完成分析、创意构思和说服技巧等18项任务测试。结果发现,原本表现位于团队下半层的顾问们在AI辅助下成果质量提升了43%;而平时表现在上半层的顾问仅提升了17%。使用GPT-4之前,顶尖员工与其他员工之间的平均差距为22%;使用之后,这一差距显著缩小至4%。MIT的一项研究同样表明,使用ChatGPT之后,高水平写作者和低水平写作者的表现差异缩减了一半。创意写作领域亦见相似现象,伦敦大学学院、埃克塞特大学研究人员的一项实验表明,创意作家技能差距缩小,GPT-4提供的五个创意灵感“有效地平衡了不同创造力水平作家的创造力评分”。不过,尽管有多项研究表明使用AI可以缩减人们之间的技能差距,但正如论文分享者、沃顿商学院教授EthanMollick所言:技能的造王者(KingMaker)、加速器(Escalator)、平衡器(Leveler),AI究竟将扮演哪一种角色,并不是总是很清楚。那么,你认为AI在你身边正扮演着哪种角色?...PC版:https://www.cnbeta.com.tw/articles/soft/1418593.htm手机版:https://m.cnbeta.com.tw/view/1418593.htm

封面图片

GPT-4、Llama 2比人类更懂“人类心理”?最新研究登上Nature子刊

GPT-4、Llama2比人类更懂“人类心理”?最新研究登上Nature子刊这些发现不仅表明大型语言模型(LLMs)展示出了与人类心理推理输出一致的行为,而且还突出了系统测试的重要性,从而确保在人类智能和人工智能之间进行非表面的比较。相关研究论文以“Testingtheoryofmindinlargelanguagemodelsandhumans”为题,已发表在Nature子刊NatureHumanBehaviour上。GPT更懂“误导”,Llama2更懂“礼貌”心智理论,是一个心理学术语,是一种能够理解自己以及周围人类的心理状态的能力,这些心理状态包括情绪、信仰、意图、欲望、假装等,自闭症通常被认为是患者缺乏这一能力所导致的。以往,心智理论这一能力被认为是人类特有的。但除了人类之外,包括多种灵长类动物,如黑猩猩,以及大象、海豚、马、猫、狗等,都被认为可能具备简单的心智理论能力,目前仍有争议。最近,诸如ChatGPT这样的大型语言模型(LLMs)的快速发展引发了一场激烈的争论,即这些模型在心智理论任务中表现出的行为是否与人类行为一致。在这项工作中,来自德国汉堡-埃彭多夫大学医学中心的研究团队及其合作者,反复测试了两个系列的LLMs(GPT和Llama2)的不同心智理论能力,并将它们的表现与1907名人类参与者进行比较。他们发现,GPT模型在识别间接要求、错误想法和误导三方面的表现,可以达到甚至超越人类的平均水平,而Llama2的表现还不如人类。图人类(紫色)、GPT-4(深蓝色)、GPT-3.5(浅蓝色)和LLaMA2-70B(绿色)在心智理论测试中的表现。在识别失礼方面,Llama2要强于人类,但GPT表现不佳。研究团队认为,Llama2表现好是因为回答的偏见程度较低,而不是因为真的对失礼敏感,GPT表现较差其实是因为对坚持结论的超保守态度,而不是因为推理错误。AI的心智理论已达人类水平?在论文的讨论部分,研究团队对GPT模型在识别不当言论任务中的表现进行了深入分析,实验结果支持了GPT模型在识别不当言论方面存在过度保守的假设,而不是推理能力差。当问题以可能性的形式提出时,GPT模型能够正确识别并选择最可能的解释。同时,他们也通过后续实验揭示了LLaMA2-70B的优越性可能是由于其对无知的偏见,而不是真正的推理能力。此外,他们还指出了未来研究的方向,包括进一步探索GPT模型在实时人机交互中的表现,以及这些模型的决策行为如何影响人类的社会认知。他们提醒道,尽管LLM在心智理论任务上的表现堪比人类,但并不意味着它们具有人类般的能力,也代表它们能掌握心智理论。尽管如此,他们也表示,这些结果是未来研究的重要基础,并建议进一步研究LLM在心理推断上的表现会如何影响个体在人机交互中的认知。...PC版:https://www.cnbeta.com.tw/articles/soft/1431713.htm手机版:https://m.cnbeta.com.tw/view/1431713.htm

封面图片

xiaojingcanxue:政治统计学简介:怎么让数据永远正确?

封面图片

数据分析神器:ChatGPT 上线 GPT-4 以来最强应用“代码解释器”

数据分析神器:ChatGPT上线GPT-4以来最强应用“代码解释器”OpenAI的语言模型ChatGPT最近推出了新功能:代码解释器(CodeInterpreter)。这个新功能已经对所有Plus订阅用户开放,代码解释器扩展了ChatGPT的功能,为用户带来了更好的交互式编程体验和强大的数据可视化功能。有了它之后,即使不是程序员,只需要用自然语言向ChatGPT下达指令,也可以完成需要复杂编程技术的任务。使用代码解释器非常简单,用户只需点击ChatGPT平台上的个人资料名,从下拉菜单中进入设置,选择“Beta功能”,就可以找到代码解释器的选项,然后开启即可。代码解释器对于经常使用代码和数据的专业人士和爱好者都非常有用,这是一个多功能的工具,可以用于分析数据、创建图表、编辑文件、执行数学运算等等。——

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人