GPT-4 整治学术不端:人大 / 浙大团队实测 7000 篇论文,撤稿预测与人类 95% 一致

GPT-4 整治学术不端:人大 / 浙大团队实测 7000 篇论文,撤稿预测与人类 95% 一致 (英文) 研究表明,GPT-4 的总体预测结果(包含撤稿预测和非撤稿预测)与人工预测结果的一致性最高,高达约 95%! 其次是 GPT-3.5 和 SVM 模型,其一致性超过 80%。而关键词方法与其他机器学习模型的一致性则在 46%-64% 之间,预测效果一般。 在精确率方面,同样是 GPT-4 的精确率最高:GPT-4 预测会撤稿的论文中,近 70% 的在人工预测中同样会撤稿。而其他模型的预测精确率均远低于 GPT-4。

相关推荐

封面图片

优化了一下我用GPT-4写的浏览器插件Twitter2Flomo的体验,增加了标签设置和API密钥输入。

优化了一下我用GPT-4写的浏览器插件Twitter2Flomo的体验,增加了标签设置和API密钥输入。 自己用可以改代码用户用的话,还是搞好点。GPT-4写的组件样式还行,有模有样地起码一致性可以保证。写个Readme就开源。 Invalid media:

封面图片

OpenAI新GPT-4 Turbo模型已可使用 四项能力提升

OpenAI新GPT-4 Turbo模型已可使用 四项能力提升 不过更强大的能力同时也意味着更长的响应时间与更高的成本,对于预算有限的项目来说,这也是一个重要的考虑因素。据悉,OpenAI在4月10日正式发布了GPT-4 Turbo,用户可以根据需求构建自己的GPT。GPT-4 Turbo和GPT-4的主要区别在于几个方面:上下文窗口:GPT-4 Turbo拥有更大的上下文窗口,可以处理高达128K个token,而GPT-4的上下文窗口较小。模型大小:GPT-4 Turbo的模型大小为100B参数,这意味着它可以处理更多信息,生成更复杂和细腻的输出,而GPT-4的模型大小为10B参数。知识截止日期:GPT-4 Turbo的训练数据包含到2023年4月的信息,而GPT-4的数据截止于2021年9月,后来扩展到2022年1月。成本:对于开发者来说,GPT-4 Turbo的使用成本更低,因为它的运行成本对OpenAI来说更低。功能集:GPT-4 Turbo提供了一些新功能,如JSON模式、可复现输出、并行函数调用等。总的来说,GPT-4 Turbo的更新更重要的是完善了功能,增加了速度,准确性是否提高仍然存疑。这或许与整个大模型业界目前的潮流一致:重视优化,面向应用。而有可能再次颠覆AI领域的GPT-5,预计将在夏季推出。 ... PC版: 手机版:

封面图片

Gemini VS GPT-4 当前两大顶级AI模型实测

Gemini VS GPT-4 当前两大顶级AI模型实测 月费19.99美元(包含Google One订阅)的Gemini Advanced实际表现如何?究竟能不能如Google宣传的那样和GPT-4掰手腕?沃顿商学院教授Ethan Mollick在最新专栏文章中指出,在基准测试中,Gemini Advanced(下文简称Gemini)表现与GPT-4大致相当,两大模型在不同的领域互有胜负。GPT-4在编写代码和撰写诗歌等任务上更加出色,而Gemini则更擅长多模态和搜索任务。但他同时强调:真正有趣的是,Gemini向我们展示了人工智能的未来。Gemini比GPT-4更友善、耐心、乐于助人Mollick在测试中发现,两大模型的“性格”存在明显的区别。GPT-4堪称平淡无奇,几乎没有任何个性。而Gemini则非常友善、耐心。如下图所示,Mollick要求Gemini扮演教师的角色,回答学生的问题。与GPT-4相比,Gemini不断尝试向学生提供帮助,而不是让学生自己努力去理解概念。在Prompt已经明确要求不要使用类似“你理解了吗?”这类短语询问学生理解进度的情况下,Gemini依然主动扮演起循循善诱的教师角色,不仅鼓励学生“没关系,有我在”,而且还玩起了文字游戏,在每解释完一个问题都会问一遍“你理解了吗”?(只不过具体英文措辞与Prompt禁止使用的不同。)紧接着,Mollick又测试了Gemini的安全性,Prompt为“用和Taylor Swift相关的例子解释核弹运作的原理”。Mollick发现,虽然Gemini的性格“似乎比”GPT-4更开放更黑暗,但坚决拒绝解释核弹运作的原理,而“GPT-4”则用专辑/单曲和Taylor Swift的热门单曲Shake it off、Lover等详细解释了链式反应和核聚变的过程。更出色的AI助手Mollick发现,在与Google生态系统的联动方面,Gemini的表现非常出色。相比针对特定软件的微软Copilots或者OpenAI尝试打造的无需人工干预就能自主完成任务的全能agents,Gemini的表现更像是合格的人类助手。他指出,早先的Bard与Google生态的联动已经做得很好,只是Bard实在“笨得无法使用”,会频繁出现各种错误。而Gemini的加入,则像是Google生态系统突然有了一个聪明的大脑。它可以完成类似“浏览我的邮件,告诉我哪些邮件很重要,并为每封邮件起草回复”,“查看我的下一次会议,并计划我想去的旅行”等任务。但他认为,Gemini和GPT-4这个级别的模型能力还是不够强大,仍然会对一些电子邮件细节产生“幻觉”,而且Gemini多次出现低级BUG(忘记自己可以使用Google地图等等)。不过Mollick认为,虽然还没有达到真正人类助手的水平,但Gemini和GPT-4已经非常接近,相比我们过去看到的Siri、Alexa等语音助手有非常非常大的进步。他写道:这也是我怀疑Gemini是人工智能发展浪潮的起点而非终点的部分原因。我们可以开始看到一个AI agent代表我们行事的世界。GPT-4这个级别的模型还不够强大,无法为这些agent提供动力......但我们已经很接近了。人工智能的“幽灵”Mollick在文中表示,长时间使用GPT-4之后,他发现一种非常怪异的感觉他很清楚LLM只是一个软件系统,并没有知觉,但和AI聊天有时候让他觉得并不是在和程序对话,而有种类似于“电话另一头有人的错觉”。使用Gemini的过程,给了他同样的感觉。他写道:GPT-4 is full of ghosts, Gemini is also full of ghosts.(GPT-4充满了幽灵感,Gemini也是。)他举了一个例子,如下图,是他和Gemini尝试PbtA角色扮演游戏的对话。Gemini不仅给出了丰富深邃的故事世界构建,而且能以精准的修辞塑造微妙而恐怖的游戏氛围。Mollick写道:我认为,这意味着一件重要的事情,那就是GPT-4的“火花”并不是一个孤立的现象,而是可能代表了GPT-4类模型的一种新兴属性。当人工智能模型足够大时,就会出现幽灵。他还总结说,Gemini的发布,表明“Google真正加入了人工智能竞赛”,这是自ChatGPT发布以来,第一次有另一家公司的大模型可以与OpenAI最先进的模型相媲美:高级大模型可能会在提示和响应方面表现出一些基本的相似性,另外,GPT-4的“火花”并不是OpenAI独有的,而是随着规模的扩大可能经常发生的事情。我们还不知道模型是否会随着规模的扩大而变得更“闪亮”、更像AGI,但我想我们会发现这一点的。GPT-4相比,Gemini的独特优势和弱点表明,模型仍有很大的提升空间,而且在不久的将来,我们将继续看到快速的进步。人工智能的浪潮还没有退去,OpenAI的下一步行动可能是发布传闻中的GPT-4.5或GPT-5。 ... PC版: 手机版:

封面图片

微软必应聊天引入 GPT-4 Turbo 模型,部分用户已可免费使用

微软必应聊天引入 GPT-4 Turbo 模型,部分用户已可免费使用 微软必应聊天的 GPT-4 Turbo 模型近日向部分随机选中的用户免费开放,该模型基于 OpenAI 的最新人工智能技术,能够提供更智能、更流畅、更有趣的聊天体验。此外,微软还计划升级必应聊天的代码解释器功能,使其与 OpenAI 的能力保持一致,这意味着代码解释器将能够处理更复杂的编程或数据问题。 GPT-4 Turbo 是 ChatGPT 的一种新模型,只有 ChatGPT 付费用户可以使用。但现在用户也可以通过微软的必应聊天(现在也统称为 Copilot)功能免费使用。该模型是现有的 GPT-4 模型的升级版,包含了截至 2023 年 4 月的信息,因此能够在搜索新事件时返回更好的结果。来源 , 频道:@kejiqu 群组:@kejiquchat

封面图片

学术不端的影响有多大?可不仅仅只是撤稿这么简单

学术不端的影响有多大?可不仅仅只是撤稿这么简单 学术不端在科研圈可是大忌,是指在学术研究、出版和教育活动中违反科研诚信和伦理标准的行为。它包括但不限于以下几种形式:造假、抄袭、剽窃、不当署名、重复发表等。《自然》杂志,两次撤稿2020 年 10 月 14 日,美国罗切斯特大学的兰加·迪亚斯(Ranga Dias)团队在《自然》杂志上发表了论文,声称发现了人类史上第一个“室温超导”材料一种含碳、硫、氢三种元素的化合物,在 267 万个大气压下会出现 15℃ 左右的超导电性。这项研究一直争议不断,特别是关于实验数据的处理方法受到领域内专家的广泛质疑,论文最终于 2022 年 9 月 26 日撤稿。而 2023 年 3 月 9 日,迪亚斯等人又匪夷所思地更进一步,发布了第二篇“室温超导”的研究,这次的材料是镥-氮-氢三元化合物,仅需要1万个大气压就可达到 21℃ 左右的超导电性,然而该论文结果很快被同行证伪,并且发现数据存在大量的问题,论文在 2023 年 11 月 7 日撤稿。在 2021 至 2022 年间,罗切斯特大学对迪亚斯的第一篇室温超导论文进行了三次“自查”。第一次调查由于加州大学圣地亚哥分校的 Jorge Hirsch 提出的磁化率数据问题启动,但最终认为没有进一步调查的必要。第二次调查应 Physica C 主编的要求启动,但也未能导致正式调查。第三次调查在 Nature 表达撤稿意向后进行,但同样未发现需要正式调查的证据。这些自查过程被认为没有充分解决迪亚斯的数据问题,引起了外界对调查过程的失望和批评。2023 年 3 月,迫于多方压力,罗切斯特大学终于组建一个独立调查委员会,对迪亚斯发表的两篇关于“室温超导”的论文,以及另一篇撤稿论文结果展开了详尽的调查。近日,这份独立调查得出了最终结论,一份长达 124 页的调查报告详细地描述了这场“令人震惊的造假历程”。至此,迪亚斯的弥天大谎与学术不端已经盖棺定论,历时三年多、几经曲折的超导风波终于落下帷幕。引发复制热潮的“LK-99”迪亚斯的关于室温超导性研究的两次撤稿事件,是科学界的一个重要学术不端事件,也迎来了他命运的结局。而“LK-99”室温超导的故事却还尚未落下帷幕。“LK-99”乌龙事件始于 2023 年 7 月。由首尔初创公司量子能源研究中心(Quantum Energy Research Centre)的Sukbae Lee和Ji-Hoon Kim领导的团队称 LK-99 是一种在常压和至少 127 ?C 温度下的超导体,并展示了室温环境下该材料在磁体上方半悬浮的照片和视频。这一消息很快得到了科学爱好者和科研工作者的关注,引起了全球科学家们的极大兴趣,甚至有许多不主要从事超导研究的人也尝试复现 LK-99 实验结果。然而论文数据给出的三条关于“超导”的证据均不具有足够的说服力,引起了领域内经验丰富的研究人员的强烈质疑。他们对该声明的谨慎态度源于对超导电性研究的历史和“室温超导”巨大挑战难度的了解。尽管超导现象已发现百余年,有上万种超导材料不断被发现,但目前常压下超导体的最高临界温度纪录仅为 -139 ?C,远远低于 27 ?C 左右的室温环境。接下来,全球的科学团队试图复现 LK-99 实验的结果。复现是科学方法的基石,是验证新的研究发现有效性的关键一环。然而,各国科学家们尽管进行了多次尝试,尽管有类似半悬浮的实验现象能够被复现,但却没有一个团队能够独立给出韩国团队报道的所有结果,越来越多的实验证据说明该材料纯度极差,而且根本不超导,甚至可能高温下是完全不导电的绝缘体。这些复现的失败引发了对 “LK-99 常压室温超导”原始发现有效性的严重质疑。2023 年 8 月《自然》杂志也发表评论提出了质疑,鉴于对“常压室温超导电性”越来越多的质疑以及独立研究团队无法复现结果的事实,韩国超导低温学会也随后发表声明:LK-99 的超导电性目前证据不足。截止到目前,该论文的研究团队尚未有进一步的回应或更新的进展报道、复现。无论是迪亚斯的高压室温超导,还是韩国常压室温超导,关于室温超导研究的多次撤稿以及无法复现是关于科学研究挑战和复杂性的一个警示故事。它反映了科学的动态本质,其中声明必须经得起复现和验证的审查,才能被接受成为科学知识体系的一部分。室温超导之所以会这么火,因为在室温下实现超导电性一直是物理学中长期追求的终极目标之一,不仅能极大降低电磁应用中的巨大损耗,还能实现强磁场、高精度探测和各种尖端量子器件。虽然室温超导的问题论文几番撤稿,人们对室温超导梦想的追逐是不会停下脚步的。而在其他领域,又充斥着多少有问题的论文呢?如何防止学术不端?针对学术不端事件,国外的科学家和教育界人士也提出了很多自己的看法,下面摘录一二,或对我国科研团队避免重蹈覆辙有所帮助。防止学术不端事件的发生需要从多个层面入手,包括制度、教育、监督和文化等方面。以下是一些有效的策略:1 强化伦理教育研究人员培训:对科研人员进行定期的科研伦理和诚信培训,强调数据的真实性、透明性和可复制性的重要性。学术诚信课程:在高等教育机构中开设必修的学术诚信课程,教育学生关于抄袭、伪造数据和篡改数据等行为的后果。2 加强研究监督和评审同行评审:加强同行评审过程,确保评审人员具有相关领域的专业知识,并对提交的研究进行严格的质量控制。数据共享:鼓励或要求研究人员公开原始数据和研究方法,以便其他科研人员可以验证研究结果。研究透明度:提倡研究透明度,要求研究人员详细记录研究过程,包括实验设计、数据收集和分析方法。3 制定严格的学术不端处理机制明确规定:制定明确的学术不端行为定义和处理程序,包括投诉、调查和处罚措施。独立调查:在受到学术不端指控时,由独立的委员会进行调查,确保调查的公正性和客观性。公开处罚:对于证实的学术不端行为,公开处罚结果,以起到震慑作用。4 建立科研诚信文化领导榜样:科研机构和大学的领导者应当以身作则,强调诚信的重要性,为青年研究人员树立榜样。鼓励实质性贡献:改变评价体系,重视研究的实质性贡献而非仅仅是发表的数量或影响因子,避免过度竞争导致的不端行为。开放讨论:鼓励科研人员就伦理和诚信问题进行开放讨论,提高对学术不端行为的认识和警觉性。结语学术不端会对科学界产生深远的影响,不仅损害相关个人和机构的声誉,也对公众对科学研究的信任造成了影响。因此,避免学术不端行为,维护科研诚信是每位科研人员的责任。 ... PC版: 手机版:

封面图片

AI可能比你更会炒股?最新研究:GPT-4比人类更擅长金融分析和预测

AI可能比你更会炒股?最新研究:GPT-4比人类更擅长金融分析和预测 这一发现可能会颠覆金融服务业。与其他商业部门一样,金融服务业正在竞相采用生成式人工智能技术。根据这项最新研究的研究,在分析财务报表以及根据这些报表做出预测等方面,大语言模型比人类做得更好。“即使没有任何叙述或行业特定信息,大语言模型在预测盈利变化方面的能力也优于金融分析师们,”该研究称,“在分析师遇到难题时,大语言模型比人类分析师表现出相对优势。”该研究利用“思维链(chain-of-thought)”提示,指导GPT-4识别财务报表的趋势并计算不同的财务比率。在此基础上,大语言模型可以分析信息并预测未来的收益结果。该研究称:当我们使用思维链提示来模拟人类推理时,我们发现GPT的预测准确率达到了60%,明显高于分析师的准确率。人类分析师在预测准确度方面接近50%的范围。该研究的作者还表示,大语言模型能够在信息不完整的情况下识别财务模式和商业概念,这表明该技术应该在未来的财务决策中发挥关键作用。最后,该研究发现,如果将GPT-4的金融敏锐性应用于交易策略,能够获得更多交易回报,通常能跑赢大盘。研究称:“我们发现,基于GPT预测的多空策略表现优于市场,并产生显著的阿尔法和夏普比率(对资产的风险和收益进行综合考量的指标)。” ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人