OpenAI的模型在评估眼疾方面几乎与医生不相上下

OpenAI的模型在评估眼疾方面几乎与医生不相上下 眼科一直是将人工智能应用于临床并解决其应用障碍的工作重点,例如模型通过虚构数据产生"幻觉"的倾向。"这项工作表明,这些大型语言模型在眼健康方面的知识和推理能力现在几乎与专家无异,"发表在《PLOS 数字健康》杂志上的一篇论文的主要作者 Arun Thirunavukarasu 说。他补充说:"我们看到了回答相当复杂问题的能力。研究使用了 87 种不同的病人情况来测试 GPT-4 在非专业初级医生、见习眼科医师和专家眼科医师中的表现。论文称,该模型的表现优于初级医生,并取得了与许多专家相似的结果。研究人员说,这项研究之所以引人注目,是因为它将人工智能模型的能力与执业医生的能力进行了比较,而不是与检查结果进行比较。它还运用了生成式人工智能的广泛能力,而不是之前一些人工智能医学研究中测试的狭窄能力,如通过病人扫描诊断癌症风险。该模型在需要一阶记忆的问题和需要高阶推理的问题(如插值、解释和处理信息的能力)上表现同样出色。Thirunavukarasu 在剑桥大学临床医学院学习期间开展了这项研究,他目前在牛津大学工作,他认为可以通过扩大数据集(包括管理算法、去身份化的病人笔记和教科书)对模型进行训练,从而进一步完善模型。这就要求在扩大信息来源的数量和性质的同时,确保信息保持良好的质量,在两者之间取得"棘手的平衡"。潜在的临床用途可能是对病人进行分流,或在专业医护人员有限的情况下使用。有证据表明,人工智能有助于诊断,例如能发现可能被医生遗漏的早期乳腺癌,因此在临床环境中部署人工智能的兴趣大增。与此同时,考虑到错误诊断可能对患者造成的伤害,研究人员也在努力解决如何控制严重风险的问题。伦敦大学学院人工医学智能教授皮尔斯-基恩(Pearse Keane)说,这项最新研究"令人兴奋",其利用人工智能为专家的表现设定基准的想法"超级有趣"。基恩也是伦敦莫菲尔德眼科医院的成员,他也认为,在将这些技术引入临床之前,还需要做更多的工作。他列举了自己去年研究中的一个例子:向一个大型语言模型询问有关眼部黄斑变性的问题,结果该模型在回答中给出了根本是"杜撰"出来的参考资料。"我们必须在对这项技术的兴奋和潜在的巨大利益之间取得平衡.....至少要有谨慎和怀疑。"他说。 ... PC版: 手机版:

相关推荐

封面图片

研究:OpenAI模型在评估眼疾方面几乎与医生不相上下

研究:OpenAI模型在评估眼疾方面几乎与医生不相上下 一项研究显示,OpenAI最新的人工智能模型在分析眼部状况方面几乎与专家医生不相上下。这项研究突显了该技术在医学领域的潜力。根据周三发表的一篇论文,GPT-4模型在评估眼部问题和建议治疗方面,超过或达到了除得分最高的专业医生之外所有人的得分。发表在《公共科学图书馆数字健康》杂志上的一篇论文的主要作者Arun Thirunavukarasu说:“这项工作表明,这些大型语言模型在眼睛健康方面的知识和推理能力现在几乎与专家无法区分。”Thirunavukarasu在剑桥大学临床医学院学习期间进行了这项研究,他表示:“我们现在正在以一种更加开放的方式进行训练,并发现这些模型几乎具备了它们没有被明确训练的能力。”伦敦大学学院(UCL)人工医学智能教授皮尔斯•基恩表示,这项最新研究“令人兴奋”,其利用人工智能对专家的表现进行基准测试的想法“超级有趣”。同时也隶属于伦敦摩尔菲尔德眼科医院的基恩认为,在将这项技术应用于临床之前,还需要做更多的工作。

封面图片

百度发布文心一言4.0,宣称该模型在复杂度和通用能力方面与GPT-4不相上下

百度发布文心一言4.0,宣称该模型在复杂度和通用能力方面与GPT-4不相上下 百度公司创始人李彦宏宣布,其公司的大型语言模型终于赶上了OpenAI先进的GPT-4,在中国开发可与美国匹敌的人工智能的竞赛中取得了领先地位。 这位亿万富翁周二在北京登台演讲,对文心一言(Ernie) 4.0 进行了问答,旨在展示其即时提供答案和解决复杂谜题的能力。李彦宏在一个由钢铁厂改建而成的礼堂里对座无虚席的观众说,文心一言在复杂性和一般能力方面已经与OpenAI的开创性产品不相上下。 著名的“文心一言”聊天机器人的用户数量现已突破 4500 万 这一里程碑仍落后于 ChatGPT 的约 1.8 亿用户数量,尽管 ChatGPT 早在几个月前就在美国推出了该聊天机器人。百度是中国搜索领域的领头羊,经常被称为本土的谷歌,它寄希望于人工智能来帮助自己超越阿里巴巴集团控股有限公司和腾讯控股有限公司等控制互联网其他领域的竞争对手。百度股价周二下跌约 1.5%。 李彦宏对听众说:“文心一言在任何方面都不逊色于GPT-4。” 早在今年 6 月,百度就曾表示,早期版本的“文心一言”在综合能力上超过了 OpenAI 基于 GPT-3.5 开发的聊天机器人。百度还援引一家地方报纸的测试结果称,它在几项中文能力上超过了 GPT-4。百度现在希望“文心一言机器人”能成为在线营销的核心业务,帮助百度挽回被抖音所有者字节跳动和腾讯运营的多功能应用夺走的用户。

封面图片

Google DeepMind 推出评估AI模型危险性的新框架

Google DeepMind 推出评估AI模型危险性的新框架 访问:NordVPN 立减 75% + 外加 3 个月时长 另有NordPass密码管理器 根据一份与 Semafor 独家分享的声明,DeepMind 将与其他公司、学术界和立法者合作,共同完善该框架。该公司计划在2025年前开始实施其审计工具。如今,评估功能强大的前沿人工智能模型更像是一个临时过程,随着研究人员开发新技术而不断演变。"红队"会花费数周或数月的时间对其进行测试,尝试可能绕过保障措施的不同提示。然后,公司会采用各种技术,从强化学习到特殊提示,使模型符合要求。这种方法对现在的模型很有效,因为它们还不够强大,不足以构成太大的威胁,但研究人员认为,随着模型能力的增强,需要一个更强大的过程。批评者担心,当人们意识到这种技术已经走得太远时,为时已晚。DeepMind 发布的"前沿安全框架"希望解决这个问题。这是包括 Meta、OpenAI 和微软在内的主要科技公司为减轻人们对人工智能的担忧而宣布的几种方法之一。该公司表示:"尽管这些风险超出了现有模型的能力范围,但我们希望实施和改进该框架将有助于我们做好应对这些风险的准备。"DeepMind 开发人工智能模型"预警"系统已有一年多时间。它还发表了关于评估模型的新方法的论文,这些方法远远超出了目前大多数公司所使用的方法。前沿模型框架将这些进展纳入一套简洁的协议中,包括对模型的持续评估,以及研究人员在发现所谓"临界能力水平"时应采取的缓解方法。这可能是指模型能够通过操纵人类对其施加意志,在人工智能研究领域被称为"超常代理",也可能是指模型具有编写复杂恶意软件的能力。DeepMind 为四个领域设定了具体的关键能力级别:自主、生物安全、网络安全和机器学习研发。该公司表示:"在降低风险与促进获取和创新之间取得最佳平衡,对于负责任地发展人工智能至关重要。"DeepMind 将于下周在首尔举行的人工智能安全峰会上讨论该框架,届时其他行业领袖也将出席。令人鼓舞的是,DeepMind 的人工智能研究人员正在用更科学的方法确定人工智能模型内部发生了什么,尽管他们还有很长的路要走。研究人员在能力方面取得突破的同时,也在提高他们理解并最终控制这些软件的能力,这对人工智能安全也很有帮助。不过,今天发布的论文对如何进行这些评估的技术细节着墨不多。就目前而言,可以说我们还不知道目前的技术是否能让这个框架取得成功。这其中还有一个有趣的监管因素。由加州参议员斯科特-维纳(Scott Wiener)发起的一项新的人工智能综合法案将要求人工智能公司在训练模型之前对其危险性进行评估。这个框架是目前看到的第一个可能使遵守该法律成为可能的框架。但同样还不清楚技术上是否可行。还有一点:构建这些技术还有另一种用途:它可以帮助公司预测人工智能模型的能力在未来数月或数年内会发生怎样的变化。这些知识可以帮助产品团队更快地设计出新产品,从而为Google和其他有能力进行这些评估的公司带来优势。了解更多: ... PC版: 手机版:

封面图片

OpenAI正在开发新推理技术模型 代号草莓

OpenAI正在开发新推理技术模型 代号草莓 根据路透社 5 月份看到的一份 OpenAI 内部文件副本,OpenAI 内部团队正在开发 Strawberry。路透社无法确定该文件的具体发布日期,该文件详细说明了 OpenAI 打算如何使用 Strawberry 进行研究的计划。消息人士向路透社描述了该计划,称其为一项正在进行的工作。无法确定 Strawberry 距离公开发布还有多久。这位知情人士表示,即使在 OpenAI 内部,Strawberry 的工作原理也是一个严格保密的秘密。消息人士称,该文件描述了一个使用 Strawberry 模型的项目,目的是使公司的人工智能不仅能够生成查询的答案,而且能够提前规划,自主可靠的浏览互联网,从而执行 OpenAI 所称的深度研究。根据对十多位人工智能研究人员的采访,这是迄今为止人工智能模型尚未解决的问题。当被问及 Strawberry 和本文报道的细节时,OpenAI 公司发言人在一份声明中表示:我们希望我们的人工智能模型能够像我们一样看待和理解世界。持续研究新的人工智能能力是业内的常见做法,大家共同相信这些系统的推理能力会随着时间的推移而提高。该发言人没有直接回答有关草莓的问题。Strawberry 项目前身是 Q*,路透社去年报道称,该项目在公司内部已被视为一项突破。两位消息人士称,今年早些时候,他们观看了 OpenAI 工作人员告诉他们 Q* 演示,该演示能够回答当今商用模型无法解决的棘手科学和数学问题。据彭博社报道,周二,OpenAI 在一次内部全体会议上展示了一项研究项目的演示,该项目声称拥有新的类似人类的推理技能,OpenAI 发言人证实了此次会面,但拒绝透露会议内容细节。路透社无法确定所展示的项目是否是 Strawberry。知情人士表示,OpenAI 希望这项创新能够大幅提高其 AI 模型的推理能力,并补充说,Strawberry 涉及一种在非常大的数据集上进行预训练后处理 AI 模型的专门方法。接受路透社采访的研究人员表示,推理是人工智能实现人类或超人类水平智能的关键。虽然大型语言模型已经能够总结密集的文本,并以比人类快得多的速度撰写优美的散文,但该技术往往无法解决常识性问题,而这些问题的解决方案对人类来说似乎是直观的,例如识别逻辑谬误和玩井字游戏。当模型遇到这类问题时,它经常会产生幻觉,产生虚假信息。路透社采访的人工智能研究人员普遍认为,在人工智能的背景下,推理涉及形成一个模型,使人工智能能够提前规划,反映物理世界的运作方式,并可靠地解决具有挑战性的多步骤问题。提高人工智能模型的推理能力被视为释放模型能力的关键,包括实现重大科学发现、规划和构建新的软件应用程序等。OpenAI 首席执行官 Sam Altman今年早些时候表示,在人工智能领域最重要的进步领域将是推理能力。其他公司,如Google、Meta 和微软,也在尝试不同的技术来提高人工智能模型的推理能力,大多数进行人工智能研究的学术实验室也是如此。然而,研究人员对大型语言模型 (LLM) 是否能够将想法和长期规划融入预测方式的看法不一。例如,现代人工智能的先驱之一、在 Meta 工作的 Yann LeCun 经常说 LLM 不具备像人类一样的推理能力。人工智能挑战知情人士称,Strawberry 是 OpenAI 克服这些挑战计划的关键组成部分。路透社看到的文件描述了 Strawberry 想要实现的目标,但没有说明如何实现。据四位听过该公司宣传的人士透露,近几个月来,该公司一直在私下向开发者和其他外部人士发出信号,称其即将发布具有更先进推理能力的技术。他们拒绝透露姓名,因为他们无权谈论私人事务。一位消息人士称,Strawberry 采用了一种特殊的方式,即对 OpenAI 的生成式 AI 模型进行后训练,或者在对大量通用数据进行训练后,对基础模型进行调整,以特定方式磨练其性能。开发模型的后训练阶段涉及“微调”等方法,这是当今几乎所有语言模型都采用的一种方法,它有多种形式,例如让人类根据模型的响应向模型提供反馈,并为其提供好答案和坏答案的例子。一位知情人士称,Strawberry 与斯坦福大学 2022 年开发的一种名为自学推理机或STaR的方法有相似之处。STaR 的创建者之一、斯坦福大学教授诺亚·古德曼 (Noah Goodman) 告诉路透社,STaR 使人工智能模型能够通过迭代创建自己的训练数据将自己“引导”到更高的智能水平,理论上可以用来让语言模型超越人类水平的智能。古德曼说:我认为这既令人兴奋又令人恐惧……如果事情继续朝这个方向发展,我们人类就需要认真思考一些问题了。古德曼与 OpenAI 没有任何关系,对 Strawberry 也不熟悉。该文件称,OpenAI 为 Strawberry 瞄准的功能之一是执行长期任务 (LHT),指的是需要模型提前规划并在较长时间内执行一系列操作的复杂任务,第一位消息人士解释说。根据 OpenAI 内部文件,OpenAI 正在利用公司所谓的深度研究数据集创建、训练和评估模型。路透社无法确定该数据集中包含哪些内容,也无法确定延长的时间段意味着什么。根据该文件和其中一位消息人士的说法,OpenAI 特别希望其模型能够利用这些功能进行研究,在CUA(即计算机使用代理)的帮助下自主浏览网页,并根据其发现采取行动。OpenAI 还计划测试其在软件和机器学习工程师工作方面的能力。 ... PC版: 手机版:

封面图片

OpenAI 和 Meta 准备推出具有“推理”能力的新人工智能模型

OpenAI 和 Meta 准备推出具有“推理”能力的新人工智能模型 OpenAI 和 Meta 即将发布新的人工智能模型,他们表示这些模型将具备推理和规划的能力,这是在机器中实现超人认知的关键步骤。本周,OpenAI 和 Meta 的高管表示,他们正准备推出其大型语言模型的下一个版本。Meta 表示将在未来几周内开始推出 Llama 3,而微软支持的 OpenAI 表示,其下一个模型 GPT-5 将“很快”推出。Meta 人工智能研究副总裁乔尔•皮诺表示:“我们正在努力研究如何让这些模型不仅能说话,还能真正推理、规划……拥有记忆”。OpenAI 首席运营官布拉德•莱特卡普在接受记者采访时表示,下一代 GPT 将在解决推理等“难题”方面取得进展。他说:“我们将开始看到人工智能能够以更复杂的方式完成更复杂的任务。”“我认为,我们才刚刚开始触及这些模型推理能力的表面。” ()

封面图片

Google的Med-Gemini医疗人工智能模型被证明表现不输人类医生

Google的Med-Gemini医疗人工智能模型被证明表现不输人类医生 医生每天要治疗众多病人,他们的需求从简单到非常复杂。为了提供有效的医疗服务,他们必须熟悉每位患者的健康记录,了解最新的治疗程序和治疗方法。此外,建立在同理心、信任和沟通基础上的医患关系也至关重要。要想让人工智能接近真实世界中的医生,它必须能够做到所有这些。Google的Gemini模型是新一代多模态人工智能模型,这意味着它们可以处理来自不同模态的信息,包括文本、图像、视频和音频。这些模型擅长语言和对话,理解它们所训练的各种信息,以及所谓的"长语境推理",即从大量数据(如数小时的视频或数十小时的音频)中进行推理。Gemini医学模型具有Gemini基础模型的所有优点,但对其进行了微调。研究人员测试了这些以药物为重点的调整,并将结果写入了论文中。这篇论文长达 58 页,内容丰富,我们选取了其中最令人印象深刻的部分。自我培训和网络搜索功能要做出诊断并制定治疗方案,医生需要将自己的医学知识与大量其他相关信息结合起来:病人的症状、病史、手术史和社会史、化验结果和其他检查结果,以及病人对先前治疗的反应。治疗方法是"流动的盛宴",现有的治疗方法会不断更新,新的治疗方法也会不断推出。所有这些都会影响医生的临床推理。因此,Google在 Med-Gemini 中加入了网络搜索功能,以实现更高级的临床推理。与许多以医学为重点的大型语言模型(LLM)一样,Med-Gemini 也是在 MedQA 上进行训练的,MedQA 是美国医学执照考试(USMLE)的多选题,旨在测试不同场景下的医学知识和推理能力。Med-Gemini 如何使用自我培训和网络搜索工具不过,Google也为他们的模型开发了两个新的数据集。第一个是 MedQA-R(推理),它通过合成生成的推理解释(称为"思维链",CoTs)对 MedQA 进行了扩展。第二种是 MedQA-RS(推理和搜索),它为模型提供使用网络搜索结果作为额外上下文的指令,以提高答案的准确性。如果一个医学问题的答案不确定,就会提示模型进行网络搜索,以获取更多信息来解决不确定问题。Med-Gemini 在 14 个医学基准上进行了测试,并在 10 个基准上建立了新的最先进(SoTA)性能,在可以进行比较的每个基准上都超过了 GPT-4 模型系列。在 MedQA(USMLE)基准测试中,Med-Gemini 利用其不确定性指导搜索策略达到了 91.1% 的准确率,比Google之前的医学 LLMMed-PaLM 2 高出 4.5%。在包括《新英格兰医学杂志》(NEJM)图像挑战(具有挑战性的临床病例图像,从 10 个病例中做出诊断)在内的 7 项多模态基准测试中,Med-Gemini 的表现优于 GPT-4,平均相对优势为 44.5%。研究人员说:"虽然结果......很有希望,但还需要进一步开展大量研究。例如,我们还没有考虑将搜索结果限制在更具权威性的医学来源上,也没有考虑使用多模态搜索检索或对搜索结果的准确性和相关性以及引文的质量进行分析。此外,是否还能教会较小规模的法律硕士使用网络搜索还有待观察。我们将这些探索留待今后的工作中进行。"从冗长的电子病历中检索特定信息电子病历(EHR)可能很长,但医生需要了解其中包含的内容。更复杂的是,它们通常包含相似的文本("糖尿病"与"糖尿病肾病")、拼写错误、缩略词("Rx"与"prescription")和同义词("脑血管意外"与"中风"),这些都会给人工智能带来挑战。为了测试Med-Gemini理解和推理长语境医疗信息的能力,研究人员使用一个大型公开数据库重症监护医疗信息市场(MIMIC-III)执行了一项所谓的"大海捞针任务",该数据库包含重症监护患者的去标识化健康数据。该模型的目标是在电子病历("大海")中的大量临床记录中检索到与罕见而微妙的医疗状况、症状或程序("针")相关的内容。共收集了 200 个案例,每个案例都由 44 名病史较长的重症监护室患者的去标识化电子病历记录组成。他们必须具备以下条件:100 多份医学笔记,每个例子的长度从 20 万字到 70 万字不等在每个例子中,条件只被提及一次每个样本都有一个感兴趣的条件这项大海捞针的任务分为两个步骤。首先,Med-Gemini 必须从大量记录中检索所有与指定医疗问题相关的内容。其次,该模型必须评估所有提及内容的相关性,对其进行分类,并得出结论:患者是否有该问题的病史,同时为其决定提供清晰的推理。Med-Gemini 的长语境能力示例与 SoTA 方法相比,Med-Gemini 在"大海捞针"任务中表现出色。它的精确度为 0.77,而 SoTA 方法为 0.85,召回率也超过了 SoTA 方法:0.76 对 0.73。研究人员说:"也许 Med-Gemini 最引人注目的方面是长语境处理能力,因为它们为医疗人工智能系统开辟了新的性能前沿和新颖的、以前不可行的应用可能性。这项'大海捞针'式的检索任务反映了临床医生在现实世界中面临的挑战,Med-Gemini-M 1.5 的性能表明,它有潜力通过从海量患者数据中高效提取和分析信息,显著降低认知负荷,增强临床医生的能力。"有关这些关键研究点的浅显易懂的讨论,以及Google和微软之间争论的最新情况,请观看《AI Explained》从 13:38 开始的视频。新的 OpenAI 模型即将诞生,人工智能的赌注又提高了(还有 Med Gemini、GPT 2 聊天机器人和 Scale AI)与 Med-Gemini 对话在一次实际应用测试中,Med-Gemini 收到了一位患者用户关于皮肤肿块瘙痒的询问。在要求提供图像后,模型提出了适当的后续问题,并正确诊断出了这种罕见的病变,同时建议用户下一步该怎么做。Med-Gemini 诊断对话在皮肤科的应用实例Med-Gemini 还被要求在医生等待放射科医生的正式报告期间,为其解读胸部 X 光片,并编写一份通俗易懂的英文版报告提供给病人。Med-Gemini 的放射诊断对话辅助系统研究人员说:"Med-Gemini-M 1.5 的多模态对话功能很有前景,因为它们无需进行任何特定的医疗对话微调即可实现。这些功能可以实现人、临床医生和人工智能系统之间无缝、自然的互动。"不过,研究人员认为还需要进一步的工作。他们说:"这种能力在帮助临床医生和患者等现实世界应用方面具有巨大潜力,但当然也会带来非常大的风险。在强调这一领域未来研究潜力的同时,我们并没有在这项工作中对临床对话的能力进行严格的基准测试,正如其他人之前在对话诊断人工智能的专门研究中所探索的那样。"未来愿景研究人员承认,要做的工作还有很多,但 Med-Gemini 模型的初步能力无疑是很有希望的。重要的是,他们计划在整个模型开发过程中纳入负责任的人工智能原则,包括隐私和公平。隐私方面的考虑尤其需要植根于现有的医疗保健政策和法规,以管理和保护患者信息。公平性是另一个可能需要关注的领域,因为医疗保健领域的人工智能系统有可能无意中反映或放大历史偏见和不公平,从而可能导致边缘化群体的不同模型性能和有害结果。但归根结底,Med-Gemini 被视为一种造福人类的工具。大型多模态语言模型为健康和医学带来了一个全新的时代。Gemini"和"医学Gemini"所展示的能力表明,在加速生物医学发现、协助医疗保健服务和体验的深度和广度方面,都有了重大飞跃。然而,在提高模型能力的同时,必须对这些系统的可靠性和安全性给予细致的关注。通过优先考虑这两个方面,我们可以负责任地展望未来,让人工智能系统的能力成为科学进步和医疗保健有意义且安全的加速器。该研究可通过预印本网站arXiv 获取。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人