OpenAI的模型在评估眼疾方面几乎与医生不相上下

OpenAI的模型在评估眼疾方面几乎与医生不相上下 眼科一直是将人工智能应用于临床并解决其应用障碍的工作重点,例如模型通过虚构数据产生"幻觉"的倾向。"这项工作表明,这些大型语言模型在眼健康方面的知识和推理能力现在几乎与专家无异,"发表在《PLOS 数字健康》杂志上的一篇论文的主要作者 Arun Thirunavukarasu 说。他补充说:"我们看到了回答相当复杂问题的能力。研究使用了 87 种不同的病人情况来测试 GPT-4 在非专业初级医生、见习眼科医师和专家眼科医师中的表现。论文称,该模型的表现优于初级医生,并取得了与许多专家相似的结果。研究人员说,这项研究之所以引人注目,是因为它将人工智能模型的能力与执业医生的能力进行了比较,而不是与检查结果进行比较。它还运用了生成式人工智能的广泛能力,而不是之前一些人工智能医学研究中测试的狭窄能力,如通过病人扫描诊断癌症风险。该模型在需要一阶记忆的问题和需要高阶推理的问题(如插值、解释和处理信息的能力)上表现同样出色。Thirunavukarasu 在剑桥大学临床医学院学习期间开展了这项研究,他目前在牛津大学工作,他认为可以通过扩大数据集(包括管理算法、去身份化的病人笔记和教科书)对模型进行训练,从而进一步完善模型。这就要求在扩大信息来源的数量和性质的同时,确保信息保持良好的质量,在两者之间取得"棘手的平衡"。潜在的临床用途可能是对病人进行分流,或在专业医护人员有限的情况下使用。有证据表明,人工智能有助于诊断,例如能发现可能被医生遗漏的早期乳腺癌,因此在临床环境中部署人工智能的兴趣大增。与此同时,考虑到错误诊断可能对患者造成的伤害,研究人员也在努力解决如何控制严重风险的问题。伦敦大学学院人工医学智能教授皮尔斯-基恩(Pearse Keane)说,这项最新研究"令人兴奋",其利用人工智能为专家的表现设定基准的想法"超级有趣"。基恩也是伦敦莫菲尔德眼科医院的成员,他也认为,在将这些技术引入临床之前,还需要做更多的工作。他列举了自己去年研究中的一个例子:向一个大型语言模型询问有关眼部黄斑变性的问题,结果该模型在回答中给出了根本是"杜撰"出来的参考资料。"我们必须在对这项技术的兴奋和潜在的巨大利益之间取得平衡.....至少要有谨慎和怀疑。"他说。 ... PC版: 手机版:

相关推荐

封面图片

研究:OpenAI模型在评估眼疾方面几乎与医生不相上下

研究:OpenAI模型在评估眼疾方面几乎与医生不相上下 一项研究显示,OpenAI最新的人工智能模型在分析眼部状况方面几乎与专家医生不相上下。这项研究突显了该技术在医学领域的潜力。根据周三发表的一篇论文,GPT-4模型在评估眼部问题和建议治疗方面,超过或达到了除得分最高的专业医生之外所有人的得分。发表在《公共科学图书馆数字健康》杂志上的一篇论文的主要作者Arun Thirunavukarasu说:“这项工作表明,这些大型语言模型在眼睛健康方面的知识和推理能力现在几乎与专家无法区分。”Thirunavukarasu在剑桥大学临床医学院学习期间进行了这项研究,他表示:“我们现在正在以一种更加开放的方式进行训练,并发现这些模型几乎具备了它们没有被明确训练的能力。”伦敦大学学院(UCL)人工医学智能教授皮尔斯•基恩表示,这项最新研究“令人兴奋”,其利用人工智能对专家的表现进行基准测试的想法“超级有趣”。同时也隶属于伦敦摩尔菲尔德眼科医院的基恩认为,在将这项技术应用于临床之前,还需要做更多的工作。

封面图片

百度发布文心一言4.0,宣称该模型在复杂度和通用能力方面与GPT-4不相上下

百度发布文心一言4.0,宣称该模型在复杂度和通用能力方面与GPT-4不相上下 百度公司创始人李彦宏宣布,其公司的大型语言模型终于赶上了OpenAI先进的GPT-4,在中国开发可与美国匹敌的人工智能的竞赛中取得了领先地位。 这位亿万富翁周二在北京登台演讲,对文心一言(Ernie) 4.0 进行了问答,旨在展示其即时提供答案和解决复杂谜题的能力。李彦宏在一个由钢铁厂改建而成的礼堂里对座无虚席的观众说,文心一言在复杂性和一般能力方面已经与OpenAI的开创性产品不相上下。 著名的“文心一言”聊天机器人的用户数量现已突破 4500 万 这一里程碑仍落后于 ChatGPT 的约 1.8 亿用户数量,尽管 ChatGPT 早在几个月前就在美国推出了该聊天机器人。百度是中国搜索领域的领头羊,经常被称为本土的谷歌,它寄希望于人工智能来帮助自己超越阿里巴巴集团控股有限公司和腾讯控股有限公司等控制互联网其他领域的竞争对手。百度股价周二下跌约 1.5%。 李彦宏对听众说:“文心一言在任何方面都不逊色于GPT-4。” 早在今年 6 月,百度就曾表示,早期版本的“文心一言”在综合能力上超过了 OpenAI 基于 GPT-3.5 开发的聊天机器人。百度还援引一家地方报纸的测试结果称,它在几项中文能力上超过了 GPT-4。百度现在希望“文心一言机器人”能成为在线营销的核心业务,帮助百度挽回被抖音所有者字节跳动和腾讯运营的多功能应用夺走的用户。

封面图片

Google DeepMind 推出评估AI模型危险性的新框架

Google DeepMind 推出评估AI模型危险性的新框架 访问:NordVPN 立减 75% + 外加 3 个月时长 另有NordPass密码管理器 根据一份与 Semafor 独家分享的声明,DeepMind 将与其他公司、学术界和立法者合作,共同完善该框架。该公司计划在2025年前开始实施其审计工具。如今,评估功能强大的前沿人工智能模型更像是一个临时过程,随着研究人员开发新技术而不断演变。"红队"会花费数周或数月的时间对其进行测试,尝试可能绕过保障措施的不同提示。然后,公司会采用各种技术,从强化学习到特殊提示,使模型符合要求。这种方法对现在的模型很有效,因为它们还不够强大,不足以构成太大的威胁,但研究人员认为,随着模型能力的增强,需要一个更强大的过程。批评者担心,当人们意识到这种技术已经走得太远时,为时已晚。DeepMind 发布的"前沿安全框架"希望解决这个问题。这是包括 Meta、OpenAI 和微软在内的主要科技公司为减轻人们对人工智能的担忧而宣布的几种方法之一。该公司表示:"尽管这些风险超出了现有模型的能力范围,但我们希望实施和改进该框架将有助于我们做好应对这些风险的准备。"DeepMind 开发人工智能模型"预警"系统已有一年多时间。它还发表了关于评估模型的新方法的论文,这些方法远远超出了目前大多数公司所使用的方法。前沿模型框架将这些进展纳入一套简洁的协议中,包括对模型的持续评估,以及研究人员在发现所谓"临界能力水平"时应采取的缓解方法。这可能是指模型能够通过操纵人类对其施加意志,在人工智能研究领域被称为"超常代理",也可能是指模型具有编写复杂恶意软件的能力。DeepMind 为四个领域设定了具体的关键能力级别:自主、生物安全、网络安全和机器学习研发。该公司表示:"在降低风险与促进获取和创新之间取得最佳平衡,对于负责任地发展人工智能至关重要。"DeepMind 将于下周在首尔举行的人工智能安全峰会上讨论该框架,届时其他行业领袖也将出席。令人鼓舞的是,DeepMind 的人工智能研究人员正在用更科学的方法确定人工智能模型内部发生了什么,尽管他们还有很长的路要走。研究人员在能力方面取得突破的同时,也在提高他们理解并最终控制这些软件的能力,这对人工智能安全也很有帮助。不过,今天发布的论文对如何进行这些评估的技术细节着墨不多。就目前而言,可以说我们还不知道目前的技术是否能让这个框架取得成功。这其中还有一个有趣的监管因素。由加州参议员斯科特-维纳(Scott Wiener)发起的一项新的人工智能综合法案将要求人工智能公司在训练模型之前对其危险性进行评估。这个框架是目前看到的第一个可能使遵守该法律成为可能的框架。但同样还不清楚技术上是否可行。还有一点:构建这些技术还有另一种用途:它可以帮助公司预测人工智能模型的能力在未来数月或数年内会发生怎样的变化。这些知识可以帮助产品团队更快地设计出新产品,从而为Google和其他有能力进行这些评估的公司带来优势。了解更多: ... PC版: 手机版:

封面图片

OpenAI正在开发新推理技术模型 代号草莓

OpenAI正在开发新推理技术模型 代号草莓 根据路透社 5 月份看到的一份 OpenAI 内部文件副本,OpenAI 内部团队正在开发 Strawberry。路透社无法确定该文件的具体发布日期,该文件详细说明了 OpenAI 打算如何使用 Strawberry 进行研究的计划。消息人士向路透社描述了该计划,称其为一项正在进行的工作。无法确定 Strawberry 距离公开发布还有多久。这位知情人士表示,即使在 OpenAI 内部,Strawberry 的工作原理也是一个严格保密的秘密。消息人士称,该文件描述了一个使用 Strawberry 模型的项目,目的是使公司的人工智能不仅能够生成查询的答案,而且能够提前规划,自主可靠的浏览互联网,从而执行 OpenAI 所称的深度研究。根据对十多位人工智能研究人员的采访,这是迄今为止人工智能模型尚未解决的问题。当被问及 Strawberry 和本文报道的细节时,OpenAI 公司发言人在一份声明中表示:我们希望我们的人工智能模型能够像我们一样看待和理解世界。持续研究新的人工智能能力是业内的常见做法,大家共同相信这些系统的推理能力会随着时间的推移而提高。该发言人没有直接回答有关草莓的问题。Strawberry 项目前身是 Q*,路透社去年报道称,该项目在公司内部已被视为一项突破。两位消息人士称,今年早些时候,他们观看了 OpenAI 工作人员告诉他们 Q* 演示,该演示能够回答当今商用模型无法解决的棘手科学和数学问题。据彭博社报道,周二,OpenAI 在一次内部全体会议上展示了一项研究项目的演示,该项目声称拥有新的类似人类的推理技能,OpenAI 发言人证实了此次会面,但拒绝透露会议内容细节。路透社无法确定所展示的项目是否是 Strawberry。知情人士表示,OpenAI 希望这项创新能够大幅提高其 AI 模型的推理能力,并补充说,Strawberry 涉及一种在非常大的数据集上进行预训练后处理 AI 模型的专门方法。接受路透社采访的研究人员表示,推理是人工智能实现人类或超人类水平智能的关键。虽然大型语言模型已经能够总结密集的文本,并以比人类快得多的速度撰写优美的散文,但该技术往往无法解决常识性问题,而这些问题的解决方案对人类来说似乎是直观的,例如识别逻辑谬误和玩井字游戏。当模型遇到这类问题时,它经常会产生幻觉,产生虚假信息。路透社采访的人工智能研究人员普遍认为,在人工智能的背景下,推理涉及形成一个模型,使人工智能能够提前规划,反映物理世界的运作方式,并可靠地解决具有挑战性的多步骤问题。提高人工智能模型的推理能力被视为释放模型能力的关键,包括实现重大科学发现、规划和构建新的软件应用程序等。OpenAI 首席执行官 Sam Altman今年早些时候表示,在人工智能领域最重要的进步领域将是推理能力。其他公司,如Google、Meta 和微软,也在尝试不同的技术来提高人工智能模型的推理能力,大多数进行人工智能研究的学术实验室也是如此。然而,研究人员对大型语言模型 (LLM) 是否能够将想法和长期规划融入预测方式的看法不一。例如,现代人工智能的先驱之一、在 Meta 工作的 Yann LeCun 经常说 LLM 不具备像人类一样的推理能力。人工智能挑战知情人士称,Strawberry 是 OpenAI 克服这些挑战计划的关键组成部分。路透社看到的文件描述了 Strawberry 想要实现的目标,但没有说明如何实现。据四位听过该公司宣传的人士透露,近几个月来,该公司一直在私下向开发者和其他外部人士发出信号,称其即将发布具有更先进推理能力的技术。他们拒绝透露姓名,因为他们无权谈论私人事务。一位消息人士称,Strawberry 采用了一种特殊的方式,即对 OpenAI 的生成式 AI 模型进行后训练,或者在对大量通用数据进行训练后,对基础模型进行调整,以特定方式磨练其性能。开发模型的后训练阶段涉及“微调”等方法,这是当今几乎所有语言模型都采用的一种方法,它有多种形式,例如让人类根据模型的响应向模型提供反馈,并为其提供好答案和坏答案的例子。一位知情人士称,Strawberry 与斯坦福大学 2022 年开发的一种名为自学推理机或STaR的方法有相似之处。STaR 的创建者之一、斯坦福大学教授诺亚·古德曼 (Noah Goodman) 告诉路透社,STaR 使人工智能模型能够通过迭代创建自己的训练数据将自己“引导”到更高的智能水平,理论上可以用来让语言模型超越人类水平的智能。古德曼说:我认为这既令人兴奋又令人恐惧……如果事情继续朝这个方向发展,我们人类就需要认真思考一些问题了。古德曼与 OpenAI 没有任何关系,对 Strawberry 也不熟悉。该文件称,OpenAI 为 Strawberry 瞄准的功能之一是执行长期任务 (LHT),指的是需要模型提前规划并在较长时间内执行一系列操作的复杂任务,第一位消息人士解释说。根据 OpenAI 内部文件,OpenAI 正在利用公司所谓的深度研究数据集创建、训练和评估模型。路透社无法确定该数据集中包含哪些内容,也无法确定延长的时间段意味着什么。根据该文件和其中一位消息人士的说法,OpenAI 特别希望其模型能够利用这些功能进行研究,在CUA(即计算机使用代理)的帮助下自主浏览网页,并根据其发现采取行动。OpenAI 还计划测试其在软件和机器学习工程师工作方面的能力。 ... PC版: 手机版:

封面图片

OpenAI 和 Meta 准备推出具有“推理”能力的新人工智能模型

OpenAI 和 Meta 准备推出具有“推理”能力的新人工智能模型 OpenAI 和 Meta 即将发布新的人工智能模型,他们表示这些模型将具备推理和规划的能力,这是在机器中实现超人认知的关键步骤。本周,OpenAI 和 Meta 的高管表示,他们正准备推出其大型语言模型的下一个版本。Meta 表示将在未来几周内开始推出 Llama 3,而微软支持的 OpenAI 表示,其下一个模型 GPT-5 将“很快”推出。Meta 人工智能研究副总裁乔尔•皮诺表示:“我们正在努力研究如何让这些模型不仅能说话,还能真正推理、规划……拥有记忆”。OpenAI 首席运营官布拉德•莱特卡普在接受记者采访时表示,下一代 GPT 将在解决推理等“难题”方面取得进展。他说:“我们将开始看到人工智能能够以更复杂的方式完成更复杂的任务。”“我认为,我们才刚刚开始触及这些模型推理能力的表面。” ()

封面图片

OpenAI发表研究论文 介绍了一种逆向工程AI模型工作原理的方法

OpenAI发表研究论文 介绍了一种逆向工程AI模型工作原理的方法 在论文中,该公司的研究人员提出了一种窥探为 ChatGPT 提供动力的人工智能模型内部的方法。他们设计了一种方法来识别模型如何存储某些概念包括那些可能导致人工智能系统行为失常的概念。虽然这项研究使 OpenAI 在控制人工智能方面的工作更加引人注目,但也凸显了该公司最近的动荡。新研究由 OpenAI最近解散的"超对齐"团队完成,该团队致力于研究技术的长期风险。前小组的共同负责人伊利亚-苏茨克沃(Ilya Sutskever)和扬-莱克(Jan Leike)均已离开OpenAI,并被列为共同作者。苏茨克沃是OpenAI的创始人之一,曾任首席科学家,去年11月,董事会成员投票解雇了首席执行官山姆-奥特曼(Sam Altman),引发了几天的混乱,最终奥特曼重返领导岗位。ChatGPT 由一个名为 GPT 的大型语言模型系列提供支持,该模型基于一种被称为人工神经网络的机器学习方法。这些数学网络通过分析示例数据显示出了学习有用任务的强大能力,但它们的工作原理无法像传统计算机程序那样被轻易检查。人工神经网络中各层"神经元"之间复杂的相互作用,使得逆向分析 ChatGPT 这样的系统为何会得出特定的反应极具挑战性。这项工作背后的研究人员在一篇随附的博文中写道:"与大多数人类创造物不同,我们并不真正了解神经网络的内部运作。一些著名的人工智能研究人员认为,包括 ChatGPT 在内的最强大的人工智能模型或许可以用来设计生化武器和协调网络攻击。一个更长期的担忧是,人工智能模型可能会选择隐藏信息或以有害的方式行事,以实现它们的目标。"OpenAI 的这篇新论文概述了一种技术,该技术借助额外的机器学习模型,识别代表机器学习系统内部特定概念的模式,从而稍稍降低了神秘感。创新的关键在于通过识别概念来完善用于窥探系统内部的网络,从而提高效率。OpenAI 通过在其最大的人工智能模型之一 GPT-4 中识别代表概念的模式证明了这种方法。该公司发布了与可解释性工作相关的代码,以及一个可视化工具,用于查看不同句子中的单词如何激活 GPT-4 和另一个模型中的概念,包括亵渎和色情内容。了解一个模型是如何表现某些概念的,这将有助于减少与不受欢迎的行为相关的概念,使人工智能系统保持正常运行。它还可以调整人工智能系统,使其偏向于某些主题或想法。尽管 LLM 无法被轻易解读,但越来越多的研究表明,它们可以被穿透,从而揭示出有用的信息。由亚马逊和Google支持的 OpenAI 竞争对手 Anthropic 上个月也发表了类似的人工智能可解释性研究成果。为了演示如何调整人工智能系统的行为,该公司的研究人员创造了一个痴迷于旧金山金门大桥的聊天机器人。有时,只需让人工只能机器人解释其推理过程,就能获得深刻的见解。东北大学从事人工智能可解释性研究的教授大卫-鲍(David Bau)在谈到 OpenAI 的新研究时说:"这是令人兴奋的进展。"作为一个领域,我们需要学习如何更好地理解和审视这些大型模型。"鲍说,OpenAI 团队的主要创新在于展示了一种配置小型神经网络的更有效方法,该网络可用于理解大型神经网络的组成部分。但他也指出,这项技术还需要改进,以使其更加可靠。要利用这些方法创造出完全可以理解的解释,还有很多工作要做。"鲍是美国政府资助的一项名为"国家深度推理结构"(National Deep Inference Fabric)的工作的一部分,这项工作将向学术研究人员提供云计算资源,以便他们也能探索特别强大的人工智能模型。他说:"我们需要想办法让科学家即使不在这些大公司工作,也能从事这项工作。"OpenAI 的研究人员在论文中承认,要改进他们的方法还需要进一步的工作,但他们也表示,希望这种方法能带来控制人工智能模型的实用方法。他们写道:"我们希望有一天,可解释性能为我们提供推理模型安全性和鲁棒性的新方法,并通过为强大的人工智能模型的行为提供强有力的保证,大大增加我们对它们的信任。"阅读论文全文: ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人