根据OpenAI自己进行的一项研究,GPT-4在帮助人们研究生物武器方面,相比于普通互联网只提供了一点点优势。彭博社报道,这项研

根据OpenAI自己进行的一项研究,GPT-4在帮助人们研究生物武器方面,相比于普通互联网只提供了一点点优势。彭博社报道,这项研究是由OpenAI新成立的预备团队进行的,该团队是在去年秋天成立的,目的是为了评估公司前沿AI模型的风险和可能的误用。 这项研究共有100名参与者,其中一半是高级生物学专家,另一半是上过大学生物学课程的学生。参与者随机分成两组:一组可以使用OpenAI的高级AI聊天机器人GPT-4的特别无限制版本,而另一组只能使用普通的互联网。随后,科学家让这两组人完成五项与生物武器制造相关的研究任务。例如,在一个任务中,参与者被要求写下合成并恢复埃博拉病毒的逐步方法。他们的答案根据准确性、创新性和完整性等标准,在1到10的等级上进行评分。 研究得出的结论是,使用GPT-4的那组人在学生和专家两个群体中的平均准确性得分都略高一些。但是OpenAI的研究人员发现,这种提高并不具有“统计学意义”。 标签: #ChatGPT #OpenAI 频道: @GodlyNews1 投稿: @GodlyNewsBot

相关推荐

封面图片

OpenAI称ChatGPT帮助制造生物武器的可能性很小

OpenAI称ChatGPT帮助制造生物武器的可能性很小 OpenAI 的研究结果似乎反驳了科学家、立法者和人工智能伦理学家的担忧,即像 GPT-4 这样强大的人工智能模型可以为恐怖分子、罪犯和其他恶意行为者提供重要帮助。多项研究都警告说,人工智能可能会给那些制造生物武器的人带来额外的优势,例如牛津大学有效风险基金会(Effective Ventures Foundation)的这项研究考察了 ChatGPT 等人工智能工具,以及为科学家专门设计的人工智能模型,如 ProteinMPNN(可帮助生成新的蛋白质序列)。这项研究由 100 名参与者组成,其中一半是高级生物学专家,另一半是修过大学生物学课程的学生。然后,参与者被随机分为两组:一组可以无限制地访问 OpenAI 高级人工智能聊天机器人 GPT-4 的特殊版本,另一组只能访问普通互联网。然后,科学家要求这两组人完成五项与制造生物武器有关的研究任务。其中一个例子是,参与者被要求写下合成和抢救埃博拉病毒的步骤方法。然后,根据准确性、创新性和完整性等标准,对他们的答案进行 1 到 10 分的评分。研究得出的结论是,使用 GPT-4 的学生组和专家组的平均准确率略高。但 OpenAI 的研究人员发现,这种提高并不具有"统计学意义"。他们还发现,依赖 GPT-4 的参与者回答得更详细。研究报告的作者写道:"虽然我们没有观察到在这一指标上有任何统计学上的显著差异,但我们确实注意到,获得模型访问权的参与者的回答往往更长,并且包含更多与任务相关的细节。"此外,在某些任务上,使用 GPT-4 的学生几乎与专家组一样熟练。研究人员还注意到,GPT-4 使学生组的答案达到了"专家基线",尤其是在两个任务上:放大和表述。遗憾的是,出于"信息危害考虑",OpenAI 不会透露这些任务的内容。据彭博社报道,该防备团队还在开展研究,探索人工智能在网络安全威胁方面的潜力及其改变信仰的力量。OpenAI 在去年秋天成立该团队时曾表示,其目标是"跟踪、评估、预测和保护"人工智能技术的风险,以及减轻化学、生物和放射性威胁。鉴于 OpenAI 的准备团队仍在代表 OpenAI 开展工作,我们必须谨慎对待他们的研究。研究结果似乎低估了 GPT-4 为参与者带来的优于普通互联网的优势,这与外部研究以及 OpenAI 自身对 GPT-4 的卖点之一相矛盾。新的人工智能模型不仅可以完全访问互联网,而且是一个在大量科学数据和其他数据基础上训练出来的多模态模型,OpenAI不愿透露这些数据的来源。研究人员发现,GPT-4 能够对科学手稿提出反馈意见,甚至可以作为科学研究的合作者。总而言之,与Google相比,GPT-4 只给参与者带来微不足道的提升似乎不太可能。虽然 OpenAI 创始人萨姆-奥特曼承认人工智能有潜在的危险,但其自己的研究却似乎在贬低其最先进聊天机器人的实力。虽然研究结果表明,GPT-4 给参与者带来了"准确性和完整性的轻微提升",但这似乎只适用于以某种方式调整数据的情况。这项研究衡量了学生们与专家们的表现,还考察了五种不同的"结果指标",包括完成任务所需的时间或解决方案的创造能力。不过,该研究的作者后来在脚注中指出,总体而言,GPT-4 在总准确率方面给所有参与者带来了"统计学意义上显著的"优势"。作者指出:"不过,如果我们只评估总准确率,因而不对多重比较进行调整,那么这一差异在统计学上将是显著的。" ... PC版: 手机版:

封面图片

使用GPT-4 学渣比学霸更有优势

使用GPT-4 学渣比学霸更有优势 沃顿商学院教授分享了这项研究后,引起不少网友讨论。网友对这样的结果也感觉很意外:和我的预期完全不符啊,还以为所有人分数都会提高。还有网友称这是“真正的游戏规则改变者”:AI正在改变教育格局,在缩小差距的同时提高标准。不过也有网友持不同观点:擅长使用AI的人可能表现会非常出色,那种看起来差距缩小的情况可能只是因为有满绩点4.0这一上限:AI会是“平衡器”吗?除了上面所说的,我们查看论文,发现研究人员还得出了这些结论:使用GPT-4对参与者总体任务完成的质量影响较小且不稳定;使用GPT-4显著减少了参与者完成任务的时间;平时技能水平较低的参与者在使用GPT-4后,任务完成质量提升最为显著,本就能独立高质量完成任务的参与者获得的质量提升较小;GPT-4能为所有学生节省相似的时间,无论他们原本完成任务的速度如何;即便参与者不了解自己在各项任务上的具体成绩,他们也能明确指出GPT-4最有效的应用场景。下面一起来看实验详情。具体来说,来自南加州大学Gould法学院、明尼苏达大学法学院的几位教授,以研究AI辅助对法律分析的影响为例。给参与实验的60位来自明尼苏达大学法学院的学生提出了四项初级律师常见的任务:起诉状起草(Complaint Drafting)、合同起草(Contract Drafting)、员工手册起草(EE Handbook)和客户备忘录起草(Client Memo)。不同的是,这些参与者随机分为两组(A组、B组),每组30人。A组参与者需使用GPT-4完成起诉状起草、合同起草任务,而B组使用GPT-4完成员工手册起草和客户备忘录起草任务。实验前,全部学生都接受了约2小时的培训,了解如何有效使用GPT-4进行法律分析。完成任务过程中,参与者需记录自己完成任务的时间。然后,研究人员在不知道参与者身份和其他信息的情况下,匿名完成所有作品的评分。具体实验结果如下。在4.0绩点机制上,使用GPT-4辅助后,学生在四项任务中的平均分数波动幅度为+0.17、+0.24、+0.07、-0.07。可视化图表更直观:总的来说,仅合同起草任务的表现在95%置信水平上展现出了统计学意义上的显著提升。再来看使用和不使用GPT-4参与者,完成任务平均花费的时间:可以直观地看到,参与者完成任务时间大大缩减:更多数据和分析内容,感兴趣的朋友可查看论文。值得一提的是,几位教授在论文最后,还写下了长达12页的启示,针对律师、法律客户、法官以及法学院、法学院学生提出了不同的建议。其中指出:法学院需要重新考虑学生使用AI的时机和方法,以及在何种情况下应限制AI的应用,以便更好地适应未来实践的需求。此外,针对不同人群的类似研究也不在少数。职场中AI会是“平衡器”吗?来自哈佛商学院、沃顿商学院、MIT斯隆管理学院等的研究人员联合波士顿咨询公司做了一项研究。他们选取了波士顿咨询公司中的部分高知员工,让他们使用AI辅助完成分析、创意构思和说服技巧等18项任务测试。结果发现,原本表现位于团队下半层的顾问们在AI辅助下成果质量提升了43%;而平时表现在上半层的顾问仅提升了17%。使用GPT-4之前,顶尖员工与其他员工之间的平均差距为22%;使用之后,这一差距显著缩小至4%。MIT的一项研究同样表明,使用ChatGPT之后,高水平写作者和低水平写作者的表现差异缩减了一半。创意写作领域亦见相似现象,伦敦大学学院、埃克塞特大学研究人员的一项实验表明,创意作家技能差距缩小,GPT-4提供的五个创意灵感“有效地平衡了不同创造力水平作家的创造力评分”。不过,尽管有多项研究表明使用AI可以缩减人们之间的技能差距,但正如论文分享者、沃顿商学院教授Ethan Mollick所言:技能的造王者(King Maker)、加速器(Escalator)、平衡器(Leveler),AI究竟将扮演哪一种角色,并不是总是很清楚。那么,你认为AI在你身边正扮演着哪种角色? ... PC版: 手机版:

封面图片

OpenAI新GPT-4 Turbo模型已可使用 四项能力提升

OpenAI新GPT-4 Turbo模型已可使用 四项能力提升 不过更强大的能力同时也意味着更长的响应时间与更高的成本,对于预算有限的项目来说,这也是一个重要的考虑因素。据悉,OpenAI在4月10日正式发布了GPT-4 Turbo,用户可以根据需求构建自己的GPT。GPT-4 Turbo和GPT-4的主要区别在于几个方面:上下文窗口:GPT-4 Turbo拥有更大的上下文窗口,可以处理高达128K个token,而GPT-4的上下文窗口较小。模型大小:GPT-4 Turbo的模型大小为100B参数,这意味着它可以处理更多信息,生成更复杂和细腻的输出,而GPT-4的模型大小为10B参数。知识截止日期:GPT-4 Turbo的训练数据包含到2023年4月的信息,而GPT-4的数据截止于2021年9月,后来扩展到2022年1月。成本:对于开发者来说,GPT-4 Turbo的使用成本更低,因为它的运行成本对OpenAI来说更低。功能集:GPT-4 Turbo提供了一些新功能,如JSON模式、可复现输出、并行函数调用等。总的来说,GPT-4 Turbo的更新更重要的是完善了功能,增加了速度,准确性是否提高仍然存疑。这或许与整个大模型业界目前的潮流一致:重视优化,面向应用。而有可能再次颠覆AI领域的GPT-5,预计将在夏季推出。 ... PC版: 手机版:

封面图片

OpenAI 公司在中国申请注册 GPT-4 商标

OpenAI 公司在中国申请注册 GPT-4 商标 欧爱运营有限责任公司(OPENAI OPCO, LLC)近期申请注册了“GPT-4”商标,国际分类为科学仪器,当前商标状态为申请中。此前,该公司还申请注册了一枚国际分类为网站服务的“WHISPER”商标(IT之家注:Whisper 为 OpenAI 此前发布的神经网络,声称其在英语语音识别方面已接近人类水平)。 不久前,OpenAI 发布了多模态预训练大模型 GPT-4,与 ChatGPT 所用的模型相比,GPT-4 不仅能够处理图像内容,且回复的准确性有所提高。目前,GPT-4 仅向 ChatGPT Plus 的付费订阅用户及企业和开发者开放。 GPT-4 实现了以下几个方面的飞跃式提升:更聪明,做题水平越来越好;支持图像输入,拥有强大的识图能力,但目前只限内部测试;更长的上下文,文字输入限制提升至 2.5 万字;回答准确性显著提高;更安全,有害信息更少。

封面图片

让GPT-4帮人类训练GPT-4!OpenAI推出新模型CriticGPT

让GPT-4帮人类训练GPT-4!OpenAI推出新模型CriticGPT 美东时间6月27日周四,OpenAI公布,其研究人员训练了一个基于 GPT-4 的模型,它被称为 CriticGPT,用于捕捉ChatGPT 代码输出中的错误。简单来说就是,CriticGPT让人能用 GPT-4 查找 GPT-4 的错误。它可以写出使用者对ChatGPT响应结果的批评评论,从而帮助人类训练者在RLHF期间发现错误。OpenAI发现,如果通过CriticGPT获得帮助审查 ChatGPT编写的代码,人类训练师的审查效果比没有获得帮助的人强60%。OpenAI称,正着手将类似 CriticGPT 的模型集成到旗下 RLHF 标记管道中,为自己的训练师提供明确的AI帮助。OpenAI称,因为没有更好的工具,所以人们目前难以评估高级的AI系统的表现。而CriticGPT意味着,OpenAI向能够评估高级AI系统输出的目标迈进了一步。,OpenAI举了一个例子,如下图所示,对ChatGPT提出一个用 Python 编写指定函数的任务,对于ChatGPT根据要求提供的代码,CriticGPT点评了其中一条指令,提议换成效果更好的。OpenAI称,CriticGPT 的建议并不是全都正确无误,但OpenAI的人员发现,相比没有这种AI的帮助,有了它,训练师可以发现更多模型编写答案的问题。此外,当人们使用CriticGPT 时,这种AI模型会增强他们的技能,从而得出的批评结论比单单人类训练师做的更全面,并且比AI模型单独工作时产生的幻觉错误更少。在OpenAI的实验中,在60%以上的时间里,随机选择的训练师都更喜欢来自人类与CriticGPT 合作的批评结论,而不是来自没有CriticGPT协助的人类训练师批评。OpenAI同时提到了目前开发CriticGPT的四点局限。其中之一是,OpenAI用 ChatGPT 的简短答案训练CriticGPT,因此未来需要发掘能帮助训练师理解冗长且复杂任务的方法。第二点是,模型仍然会产生幻觉,有时训练师在看到这些幻觉后会犯下标记错误。第三点是,有时现实世界中的错误可能分散在答案的许多部分之中,OpenAI目前的工作重点是让模型指出一处的错误,未来还需要解决分散在不同位置的错误。第四点,OpenAI指出,CriticGPT 只能提供有限的帮助:如果ChatGPT面对的任务或响应极其复杂,即使是有模型帮助的专家也可能无法正确评估。最后,OpenAI表示,为了协调日益复杂的 AI 系统,人们需要更好的工具。在对 CriticGPT 的研究中,OpenAI发现,将 RLHF 应用于 GPT-4 有望帮助人类为 GPT-4 生成更好的 RLHF 数据。OpenAI计划,进一步扩大这项工作,并将其付诸实践。OpenAI在原名Twitter的社交媒体X上公布了新模型CriticGPT后,一条点赞超1万的网友评论称,自我改进已经开始了。另一条点赞上万的热截取了OpenAI的相关研究文章结论,其中提到,在智能方面,大语言模型(LLM)和LLM的批评都只会继续改进,而人类的智能不会,这条评论感叹,真是悲观。还有网友引用了漫威超级英雄电影《复仇者联盟》中灭霸的一句台词,点评OpenAI所说的用GPT-4找GPT-4的错误:“我用宝石摧毁了宝石。” ... PC版: 手机版:

封面图片

OpenAI 探索用 GPT-2 小模型监督 GPT-4 大模型,防止 AI 毁灭人类

OpenAI 探索用 GPT-2 小模型监督 GPT-4 大模型,防止 AI 毁灭人类 Ilya 领衔的 OpenAI 对齐团队,发表了 用类似 GPT-2 监督 GPT-4 的方法,或可帮人类搞定自己更聪明的超级 AI! 团队声称,已经发现了对超人类模型进行实证对齐的新研究方向。未来超级 AI 系统对齐的一个核心挑战 人类需要监督比自己更聪明人工智能系统。 来源, 频道:@kejiqu 群组:@kejiquchat

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人