根据OpenAI自己进行的一项研究,GPT-4在帮助人们研究生物武器方面,相比于普通互联网只提供了一点点优势。彭博社报道,这项研

根据OpenAI自己进行的一项研究,GPT-4在帮助人们研究生物武器方面,相比于普通互联网只提供了一点点优势。彭博社报道,这项研究是由OpenAI新成立的预备团队进行的,该团队是在去年秋天成立的,目的是为了评估公司前沿AI模型的风险和可能的误用。 这项研究共有100名参与者,其中一半是高级生物学专家,另一半是上过大学生物学课程的学生。参与者随机分成两组:一组可以使用OpenAI的高级AI聊天机器人GPT-4的特别无限制版本,而另一组只能使用普通的互联网。随后,科学家让这两组人完成五项与生物武器制造相关的研究任务。例如,在一个任务中,参与者被要求写下合成并恢复埃博拉病毒的逐步方法。他们的答案根据准确性、创新性和完整性等标准,在1到10的等级上进行评分。 研究得出的结论是,使用GPT-4的那组人在学生和专家两个群体中的平均准确性得分都略高一些。但是OpenAI的研究人员发现,这种提高并不具有“统计学意义”。 标签: #ChatGPT #OpenAI 频道: @GodlyNews1 投稿: @GodlyNewsBot

相关推荐

封面图片

OpenAI称ChatGPT帮助制造生物武器的可能性很小

OpenAI称ChatGPT帮助制造生物武器的可能性很小 OpenAI 的研究结果似乎反驳了科学家、立法者和人工智能伦理学家的担忧,即像 GPT-4 这样强大的人工智能模型可以为恐怖分子、罪犯和其他恶意行为者提供重要帮助。多项研究都警告说,人工智能可能会给那些制造生物武器的人带来额外的优势,例如牛津大学有效风险基金会(Effective Ventures Foundation)的这项研究考察了 ChatGPT 等人工智能工具,以及为科学家专门设计的人工智能模型,如 ProteinMPNN(可帮助生成新的蛋白质序列)。这项研究由 100 名参与者组成,其中一半是高级生物学专家,另一半是修过大学生物学课程的学生。然后,参与者被随机分为两组:一组可以无限制地访问 OpenAI 高级人工智能聊天机器人 GPT-4 的特殊版本,另一组只能访问普通互联网。然后,科学家要求这两组人完成五项与制造生物武器有关的研究任务。其中一个例子是,参与者被要求写下合成和抢救埃博拉病毒的步骤方法。然后,根据准确性、创新性和完整性等标准,对他们的答案进行 1 到 10 分的评分。研究得出的结论是,使用 GPT-4 的学生组和专家组的平均准确率略高。但 OpenAI 的研究人员发现,这种提高并不具有"统计学意义"。他们还发现,依赖 GPT-4 的参与者回答得更详细。研究报告的作者写道:"虽然我们没有观察到在这一指标上有任何统计学上的显著差异,但我们确实注意到,获得模型访问权的参与者的回答往往更长,并且包含更多与任务相关的细节。"此外,在某些任务上,使用 GPT-4 的学生几乎与专家组一样熟练。研究人员还注意到,GPT-4 使学生组的答案达到了"专家基线",尤其是在两个任务上:放大和表述。遗憾的是,出于"信息危害考虑",OpenAI 不会透露这些任务的内容。据彭博社报道,该防备团队还在开展研究,探索人工智能在网络安全威胁方面的潜力及其改变信仰的力量。OpenAI 在去年秋天成立该团队时曾表示,其目标是"跟踪、评估、预测和保护"人工智能技术的风险,以及减轻化学、生物和放射性威胁。鉴于 OpenAI 的准备团队仍在代表 OpenAI 开展工作,我们必须谨慎对待他们的研究。研究结果似乎低估了 GPT-4 为参与者带来的优于普通互联网的优势,这与外部研究以及 OpenAI 自身对 GPT-4 的卖点之一相矛盾。新的人工智能模型不仅可以完全访问互联网,而且是一个在大量科学数据和其他数据基础上训练出来的多模态模型,OpenAI不愿透露这些数据的来源。研究人员发现,GPT-4 能够对科学手稿提出反馈意见,甚至可以作为科学研究的合作者。总而言之,与Google相比,GPT-4 只给参与者带来微不足道的提升似乎不太可能。虽然 OpenAI 创始人萨姆-奥特曼承认人工智能有潜在的危险,但其自己的研究却似乎在贬低其最先进聊天机器人的实力。虽然研究结果表明,GPT-4 给参与者带来了"准确性和完整性的轻微提升",但这似乎只适用于以某种方式调整数据的情况。这项研究衡量了学生们与专家们的表现,还考察了五种不同的"结果指标",包括完成任务所需的时间或解决方案的创造能力。不过,该研究的作者后来在脚注中指出,总体而言,GPT-4 在总准确率方面给所有参与者带来了"统计学意义上显著的"优势"。作者指出:"不过,如果我们只评估总准确率,因而不对多重比较进行调整,那么这一差异在统计学上将是显著的。" ... PC版: 手机版:

封面图片

使用GPT-4 学渣比学霸更有优势

使用GPT-4 学渣比学霸更有优势 沃顿商学院教授分享了这项研究后,引起不少网友讨论。网友对这样的结果也感觉很意外:和我的预期完全不符啊,还以为所有人分数都会提高。还有网友称这是“真正的游戏规则改变者”:AI正在改变教育格局,在缩小差距的同时提高标准。不过也有网友持不同观点:擅长使用AI的人可能表现会非常出色,那种看起来差距缩小的情况可能只是因为有满绩点4.0这一上限:AI会是“平衡器”吗?除了上面所说的,我们查看论文,发现研究人员还得出了这些结论:使用GPT-4对参与者总体任务完成的质量影响较小且不稳定;使用GPT-4显著减少了参与者完成任务的时间;平时技能水平较低的参与者在使用GPT-4后,任务完成质量提升最为显著,本就能独立高质量完成任务的参与者获得的质量提升较小;GPT-4能为所有学生节省相似的时间,无论他们原本完成任务的速度如何;即便参与者不了解自己在各项任务上的具体成绩,他们也能明确指出GPT-4最有效的应用场景。下面一起来看实验详情。具体来说,来自南加州大学Gould法学院、明尼苏达大学法学院的几位教授,以研究AI辅助对法律分析的影响为例。给参与实验的60位来自明尼苏达大学法学院的学生提出了四项初级律师常见的任务:起诉状起草(Complaint Drafting)、合同起草(Contract Drafting)、员工手册起草(EE Handbook)和客户备忘录起草(Client Memo)。不同的是,这些参与者随机分为两组(A组、B组),每组30人。A组参与者需使用GPT-4完成起诉状起草、合同起草任务,而B组使用GPT-4完成员工手册起草和客户备忘录起草任务。实验前,全部学生都接受了约2小时的培训,了解如何有效使用GPT-4进行法律分析。完成任务过程中,参与者需记录自己完成任务的时间。然后,研究人员在不知道参与者身份和其他信息的情况下,匿名完成所有作品的评分。具体实验结果如下。在4.0绩点机制上,使用GPT-4辅助后,学生在四项任务中的平均分数波动幅度为+0.17、+0.24、+0.07、-0.07。可视化图表更直观:总的来说,仅合同起草任务的表现在95%置信水平上展现出了统计学意义上的显著提升。再来看使用和不使用GPT-4参与者,完成任务平均花费的时间:可以直观地看到,参与者完成任务时间大大缩减:更多数据和分析内容,感兴趣的朋友可查看论文。值得一提的是,几位教授在论文最后,还写下了长达12页的启示,针对律师、法律客户、法官以及法学院、法学院学生提出了不同的建议。其中指出:法学院需要重新考虑学生使用AI的时机和方法,以及在何种情况下应限制AI的应用,以便更好地适应未来实践的需求。此外,针对不同人群的类似研究也不在少数。职场中AI会是“平衡器”吗?来自哈佛商学院、沃顿商学院、MIT斯隆管理学院等的研究人员联合波士顿咨询公司做了一项研究。他们选取了波士顿咨询公司中的部分高知员工,让他们使用AI辅助完成分析、创意构思和说服技巧等18项任务测试。结果发现,原本表现位于团队下半层的顾问们在AI辅助下成果质量提升了43%;而平时表现在上半层的顾问仅提升了17%。使用GPT-4之前,顶尖员工与其他员工之间的平均差距为22%;使用之后,这一差距显著缩小至4%。MIT的一项研究同样表明,使用ChatGPT之后,高水平写作者和低水平写作者的表现差异缩减了一半。创意写作领域亦见相似现象,伦敦大学学院、埃克塞特大学研究人员的一项实验表明,创意作家技能差距缩小,GPT-4提供的五个创意灵感“有效地平衡了不同创造力水平作家的创造力评分”。不过,尽管有多项研究表明使用AI可以缩减人们之间的技能差距,但正如论文分享者、沃顿商学院教授Ethan Mollick所言:技能的造王者(King Maker)、加速器(Escalator)、平衡器(Leveler),AI究竟将扮演哪一种角色,并不是总是很清楚。那么,你认为AI在你身边正扮演着哪种角色? ... PC版: 手机版:

封面图片

OpenAI推出CriticGPT模型,让GPT-4帮人类训练GPT-4

OpenAI推出CriticGPT模型,让GPT-4帮人类训练GPT-4 PANews 6月28日消息,据财联社报道,OpenAI新推出了一个基于GPT-4的模型CriticGPT,用于捕获ChatGPT代码输出中的错误。 CriticGPT的作用相当于让人们用GPT-4来查找GPT-4的错误。该模型可以对ChatGPT响应结果做出批评评论,从而帮助人工智能训练师在“基于人类反馈的强化学习(RLHF)”过程中发现的错误,为人工智能训练师提供明确的人工智能帮助。这一新模型的发布意在向投资者传达,OpenAI在RLHF赛道上的领先地位。RLHF的一个关键部分就是收集比较,让人工智能训练师对不同的ChatGPT回答进行评分,并反馈给ChatGPT。 研究发现,当训练师借助CriticGPT来审查ChatGPT输出代码时,他们的表现要比没有得到帮助的人高出60%。并且,在CriticGPT的帮助下,他们的指正比自己单独做的更加全面。

封面图片

今天开始 GPT-4 API 全面开放

今天开始 GPT-4 API 全面开放 所有具有成功支付历史的 API 开发人员,现在都可以直接访问具有 8K 上下文的 GPT-4 API。OpenAI 计划在本月底前向新开发人员开放访问权限,然后根据计算可用性开始提高速率限制。 GPT-3.5 Turbo、DALL·E 和 Whisper API 现已普遍可用,text-davinci-002、text-davinci-003 等旧型号模型计划在2024年初退役。

封面图片

ℹOpenAI 宣布修复 GPT-4 变懒的问题,并调降价格#

ℹOpenAI 宣布修复 GPT-4 变懒的问题,并调降价格# 上个月初时,随著越来越多用户反应 GPT-4 的回答大不如前,OpenAI 也出来证实他们也有发现这一点,虽然目前似乎还没完全修复,但至少...

封面图片

【GPT-4技术细节保密惹争议】OpenAI 分享了大量 GPT-4 基准和测试结果以及一些有趣的演示,但几乎没有提供有关用于训

【GPT-4技术细节保密惹争议】OpenAI 分享了大量 GPT-4 基准和测试结果以及一些有趣的演示,但几乎没有提供有关用于训练系统的数据、算力成本或用于创建 GPT-4 的硬件或方法等信息。 #抽屉IT

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人