Google的Med-Gemini医疗人工智能模型被证明表现不输人类医生

Google的Med-Gemini医疗人工智能模型被证明表现不输人类医生 医生每天要治疗众多病人,他们的需求从简单到非常复杂。为了提供有效的医疗服务,他们必须熟悉每位患者的健康记录,了解最新的治疗程序和治疗方法。此外,建立在同理心、信任和沟通基础上的医患关系也至关重要。要想让人工智能接近真实世界中的医生,它必须能够做到所有这些。Google的Gemini模型是新一代多模态人工智能模型,这意味着它们可以处理来自不同模态的信息,包括文本、图像、视频和音频。这些模型擅长语言和对话,理解它们所训练的各种信息,以及所谓的"长语境推理",即从大量数据(如数小时的视频或数十小时的音频)中进行推理。Gemini医学模型具有Gemini基础模型的所有优点,但对其进行了微调。研究人员测试了这些以药物为重点的调整,并将结果写入了论文中。这篇论文长达 58 页,内容丰富,我们选取了其中最令人印象深刻的部分。自我培训和网络搜索功能要做出诊断并制定治疗方案,医生需要将自己的医学知识与大量其他相关信息结合起来:病人的症状、病史、手术史和社会史、化验结果和其他检查结果,以及病人对先前治疗的反应。治疗方法是"流动的盛宴",现有的治疗方法会不断更新,新的治疗方法也会不断推出。所有这些都会影响医生的临床推理。因此,Google在 Med-Gemini 中加入了网络搜索功能,以实现更高级的临床推理。与许多以医学为重点的大型语言模型(LLM)一样,Med-Gemini 也是在 MedQA 上进行训练的,MedQA 是美国医学执照考试(USMLE)的多选题,旨在测试不同场景下的医学知识和推理能力。Med-Gemini 如何使用自我培训和网络搜索工具不过,Google也为他们的模型开发了两个新的数据集。第一个是 MedQA-R(推理),它通过合成生成的推理解释(称为"思维链",CoTs)对 MedQA 进行了扩展。第二种是 MedQA-RS(推理和搜索),它为模型提供使用网络搜索结果作为额外上下文的指令,以提高答案的准确性。如果一个医学问题的答案不确定,就会提示模型进行网络搜索,以获取更多信息来解决不确定问题。Med-Gemini 在 14 个医学基准上进行了测试,并在 10 个基准上建立了新的最先进(SoTA)性能,在可以进行比较的每个基准上都超过了 GPT-4 模型系列。在 MedQA(USMLE)基准测试中,Med-Gemini 利用其不确定性指导搜索策略达到了 91.1% 的准确率,比Google之前的医学 LLMMed-PaLM 2 高出 4.5%。在包括《新英格兰医学杂志》(NEJM)图像挑战(具有挑战性的临床病例图像,从 10 个病例中做出诊断)在内的 7 项多模态基准测试中,Med-Gemini 的表现优于 GPT-4,平均相对优势为 44.5%。研究人员说:"虽然结果......很有希望,但还需要进一步开展大量研究。例如,我们还没有考虑将搜索结果限制在更具权威性的医学来源上,也没有考虑使用多模态搜索检索或对搜索结果的准确性和相关性以及引文的质量进行分析。此外,是否还能教会较小规模的法律硕士使用网络搜索还有待观察。我们将这些探索留待今后的工作中进行。"从冗长的电子病历中检索特定信息电子病历(EHR)可能很长,但医生需要了解其中包含的内容。更复杂的是,它们通常包含相似的文本("糖尿病"与"糖尿病肾病")、拼写错误、缩略词("Rx"与"prescription")和同义词("脑血管意外"与"中风"),这些都会给人工智能带来挑战。为了测试Med-Gemini理解和推理长语境医疗信息的能力,研究人员使用一个大型公开数据库重症监护医疗信息市场(MIMIC-III)执行了一项所谓的"大海捞针任务",该数据库包含重症监护患者的去标识化健康数据。该模型的目标是在电子病历("大海")中的大量临床记录中检索到与罕见而微妙的医疗状况、症状或程序("针")相关的内容。共收集了 200 个案例,每个案例都由 44 名病史较长的重症监护室患者的去标识化电子病历记录组成。他们必须具备以下条件:100 多份医学笔记,每个例子的长度从 20 万字到 70 万字不等在每个例子中,条件只被提及一次每个样本都有一个感兴趣的条件这项大海捞针的任务分为两个步骤。首先,Med-Gemini 必须从大量记录中检索所有与指定医疗问题相关的内容。其次,该模型必须评估所有提及内容的相关性,对其进行分类,并得出结论:患者是否有该问题的病史,同时为其决定提供清晰的推理。Med-Gemini 的长语境能力示例与 SoTA 方法相比,Med-Gemini 在"大海捞针"任务中表现出色。它的精确度为 0.77,而 SoTA 方法为 0.85,召回率也超过了 SoTA 方法:0.76 对 0.73。研究人员说:"也许 Med-Gemini 最引人注目的方面是长语境处理能力,因为它们为医疗人工智能系统开辟了新的性能前沿和新颖的、以前不可行的应用可能性。这项'大海捞针'式的检索任务反映了临床医生在现实世界中面临的挑战,Med-Gemini-M 1.5 的性能表明,它有潜力通过从海量患者数据中高效提取和分析信息,显著降低认知负荷,增强临床医生的能力。"有关这些关键研究点的浅显易懂的讨论,以及Google和微软之间争论的最新情况,请观看《AI Explained》从 13:38 开始的视频。新的 OpenAI 模型即将诞生,人工智能的赌注又提高了(还有 Med Gemini、GPT 2 聊天机器人和 Scale AI)与 Med-Gemini 对话在一次实际应用测试中,Med-Gemini 收到了一位患者用户关于皮肤肿块瘙痒的询问。在要求提供图像后,模型提出了适当的后续问题,并正确诊断出了这种罕见的病变,同时建议用户下一步该怎么做。Med-Gemini 诊断对话在皮肤科的应用实例Med-Gemini 还被要求在医生等待放射科医生的正式报告期间,为其解读胸部 X 光片,并编写一份通俗易懂的英文版报告提供给病人。Med-Gemini 的放射诊断对话辅助系统研究人员说:"Med-Gemini-M 1.5 的多模态对话功能很有前景,因为它们无需进行任何特定的医疗对话微调即可实现。这些功能可以实现人、临床医生和人工智能系统之间无缝、自然的互动。"不过,研究人员认为还需要进一步的工作。他们说:"这种能力在帮助临床医生和患者等现实世界应用方面具有巨大潜力,但当然也会带来非常大的风险。在强调这一领域未来研究潜力的同时,我们并没有在这项工作中对临床对话的能力进行严格的基准测试,正如其他人之前在对话诊断人工智能的专门研究中所探索的那样。"未来愿景研究人员承认,要做的工作还有很多,但 Med-Gemini 模型的初步能力无疑是很有希望的。重要的是,他们计划在整个模型开发过程中纳入负责任的人工智能原则,包括隐私和公平。隐私方面的考虑尤其需要植根于现有的医疗保健政策和法规,以管理和保护患者信息。公平性是另一个可能需要关注的领域,因为医疗保健领域的人工智能系统有可能无意中反映或放大历史偏见和不公平,从而可能导致边缘化群体的不同模型性能和有害结果。但归根结底,Med-Gemini 被视为一种造福人类的工具。大型多模态语言模型为健康和医学带来了一个全新的时代。Gemini"和"医学Gemini"所展示的能力表明,在加速生物医学发现、协助医疗保健服务和体验的深度和广度方面,都有了重大飞跃。然而,在提高模型能力的同时,必须对这些系统的可靠性和安全性给予细致的关注。通过优先考虑这两个方面,我们可以负责任地展望未来,让人工智能系统的能力成为科学进步和医疗保健有意义且安全的加速器。该研究可通过预印本网站arXiv 获取。 ... PC版: 手机版:

相关推荐

封面图片

Google发布Gemini 1.5 Flash人工智能模型 比Gemini Pro更轻便与易于使用

Google发布Gemini 1.5 Flash人工智能模型 比Gemini Pro更轻便与易于使用 Google DeepMind 首席执行官德米斯-哈萨比斯(Demis Hassabis)在一篇博客文章中写道:"[Gemini] 1.5 Flash 擅长摘要、聊天应用、图像和视频字幕、从长文档和表格中提取数据等。"Google之所以创建Gemini 1.5 Flash,是因为开发人员需要一个比Google今年2月发布的专业版更轻便、更便宜的型号。Gemini 1.5 Pro 比该公司去年底发布的 Gemini 原型更高效、更强大。Gemini 1.5 Flash 介于 Gemini 1.5 Pro 和 Gemini 1.5 Nano 之间,是Google在本地设备上运行的最小型号。尽管重量比 Gemini Pro 轻,但功能却同样强大。Google表示,这是通过一个名为"蒸馏"的过程实现的,即把 Gemini 1.5 Pro 中最基本的知识和技能转移到更小的型号上。这意味着,Gemini 1.5 Flash 将获得与 Pro 相同的多模态功能,以及长语境窗口(人工智能模型可一次性摄取的数据量),即一百万个词元。根据Google的说法,这意味着 Gemini 1.5 Flash 将能够一次性分析 1500 页的文档或超过 30000 行的代码库。Gemini 1.5 Flash(或这些型号中的任何一款)并非真正面向消费者。相反,它是开发人员利用Google设计的技术构建自己的人工智能产品和服务的一种更快、更便宜的方式。除了推出 Gemini 1.5 Flash 之外,Google还对 Gemini 1.5 Pro 进行了升级。该公司表示,已经"增强"了该模型编写代码、推理和解析音频与图像的能力。但最大的更新还在后面Google宣布将在今年晚些时候把该模型现有的上下文窗口增加一倍,达到 200 万个词元。这将使它能够同时处理两小时的视频、22 小时的音频、6 万多行代码或 140 多万字。Gemini 1.5 Flash 和 Pro 现在都可以在Google的人工智能工作室和顶点人工智能中进行公开预览。该公司今天还发布了新版 Gemma 开放模型,名为 Gemma 2。不过,除非你是开发人员或喜欢捣鼓构建人工智能应用程序和服务的人,否则这些更新其实并不适合普通消费者。 ... PC版: 手机版:

封面图片

Google的下一代人工智能模型Gemini 1.5已基本准备就绪

Google的下一代人工智能模型Gemini 1.5已基本准备就绪 Gemini 1.5 有很多改进:Gemini 1.5 Pro(Google系统中的通用模型)与该公司最近才推出的高端 Gemini Ultra 能力不相上下,而且在 87% 的基准测试中,它都优于 Gemini 1.0 Pro。它采用了一种越来越常见的技术,即"专家混合"(MoE),这意味着当你发送查询时,它只运行整个模型的一部分,而不是一直处理整个模型。这种方法能让用户更快地使用模型,也能让 Google 更高效地运行模型。但是,Gemini 1.5 中的一个新功能让整个公司都特别兴奋:Gemini 1.5 有一个巨大的上下文窗口,这意味着它可以处理更大的查询,一次查看更多的信息。这个窗口高达 100 万个tokens,而 OpenAI 的 GPT-4 为 12.8 万个,目前的 Gemini Pro 为 3.2 万个。"这大约相当于是 10 或 11 个小时的视频,数万行代码"。上下文窗口意味着可以一次性向人工智能机器人询问所有内容。Google CEO皮查伊还表示,研究人员正在测试一个 1000 tokens的上下文窗口这就好比是将《权力的游戏》的整个系列同时播出,或者把整个《指环王》三部曲都放进这个上下文窗口中。这允许在查询时添加大量个人上下文和信息,就像我们极大地扩展了查询窗口一样。目前,Gemini 1.5 只能通过Google的顶点人工智能(Vertex AI)和人工智能工作室(AI Studio)提供给企业用户和开发人员。最终,它将取代Gemini 1.0,而Gemini专业版的标准版本每个人都可以在gemini.google.com和公司的App中使用的版本将是 1.5 专业版,拥有128000 个tokens的上下文窗口,而需要支付额外的费用才能获得百万级的权限。Google还在测试该模式的安全性和道德底线,尤其是新增加的上下文窗口。当全球企业都在试图制定自己的人工智能战略以及是与 OpenAI、Google还是其他公司签署开发者协议时,Google正在为打造最好的人工智能工具而展开一场激烈的竞赛。就在本周,OpenAI 公布了ChatGPT的"记忆能力",同时似乎准备进军网络搜索领域。到目前为止,Gemini 似乎给人留下了深刻印象,尤其是对于那些已经进入Google生态系统的人来说,但各方都还有很多工作要做。最终,所有这些 1.0、1.5、Pro、Ultras 和企业之争对用户来说并不重要。人们将只需要感受AI,这就像使用智能手机,而不必总是关注手机里面的处理器是怎么工作的。 ... PC版: 手机版:

封面图片

Google将修正Gemini人工智能输出回答时的史实误差

Google将修正Gemini人工智能输出回答时的史实误差 负责监督Gemini开发的Google高级产品总监杰克-克劳奇克(Jack Krawczyk)周三写道,Gemini团队正在努力调整人工智能模型,以便生成更符合历史的准确结果。Krawczyk说:"我们知道Gemini公司提供的一些历史图像生成描述不准确,我们正在努力立即解决这个问题。"产品总监在同一篇文章中强调,"Gemini"的设计旨在"反映我们的全球用户群,我们认真对待代表性和偏见问题",这表明这些结果的产生可能是人工智能努力实现种族包容性的一部分。一些 Gemini 用户发布了截图,声称 Gemini 错误地认为美国原住民男人和印度女人代表了 1820 年代的德国夫妇、非洲裔美国人的开国元勋,亚洲和原住民士兵是 1929 年德国军队的成员,甚至还有“中世纪的英格兰国王”。Krawczyk 说:"历史背景有更多细微差别,我们将进一步调整以适应这种情况,"他补充说,非历史请求将继续产生"通用"结果。但是,如果Gemini被修改为执行更严格的历史现实主义,它就不能再被用来创造历史再现。更广泛地说,生成式人工智能工具旨在利用特定的数据集,在一定参数范围内创建内容。这些数据可能有缺陷,也可能根本不正确。众所周知,人工智能模型也会产生"幻觉",这意味着它们可能会编造虚假信息,只是为了给用户一个回应。如果人工智能不只是作为一种创造性工具来使用,而是用于教育或工作等目的,那么幻觉和不准确性就会成为一个值得关注的问题。自 2022 年 OpenAI 的 ChatGPT 等生成式人工智能工具推出以来,艺术家、记者和大学研究人员发现,人工智能模型在创建图像时可能会显示出固有的种族主义、性别歧视或其他歧视性偏见。Google在其人工智能原则中明确承认了这一问题,并表示作为一家公司,Google正努力避免在其人工智能工具中复制任何"不公平的偏见"。Gemini并不是本周唯一一个给用户带来意外结果的人工智能工具。据报道,ChatGPT 周三也出了点问题,对一些用户的询问做出了毫无意义的回答。OpenAI 表示已经"修复"了这个问题。 ... PC版: 手机版:

封面图片

在与微软的战斗中,谷歌押注医疗人工智能项目来破解医疗保健行业

在与微软的战斗中,谷歌押注医疗人工智能项目来破解医疗保健行业 谷歌正在测试一项人工智能程序,该程序经过训练可以熟练地回答医疗问题。 谷歌押注其名为 Med-PaLM 2 的医疗聊天机器人技术将比更通用的算法更擅长就医疗保健问题进行对话,因为它已经获得了医疗许可考试的问题和答案。知情人士称,该公司于四月份开始与包括研究医院梅奥诊所在内的客户测试该系统。 据谷歌高管和该公司发布的研究报告称,Med-PaLM 2 可用于生成对医疗问题的答复,并执行总结文件或组织大量健康数据等任务。 医学领袖和伦理学家表示,虽然生成式人工智能可能会给医学带来变革,但必须告知患者其健康数据的任何新使用方式,并且在推出新工具时必须对其进行评估。 (节选)

封面图片

Google Gemini模型已上线Poe

Google Gemini模型已上线Poe Google Gemini模型现已上线Poe,支持上传图片,官方介绍:这是谷歌Gemini家族的多模态模型的Beta版本,该模型在模型性能和速度之间实现了平衡。该模型展现了优秀的通用能力,尤其擅长跨模态推理,并支持最大32k个tokens的上下文窗口。 via 匿名 标签: #Google #Gemini #Poe 频道: @GodlyNews1 投稿: @GodlyNewsBot

封面图片

研究显示AI大语言模型在处理医疗编码方面有着明显局限性

研究显示AI大语言模型在处理医疗编码方面有着明显局限性 这项研究从西奈山医疗系统 12 个月的常规护理中提取了 27000 多个独特的诊断和手术代码,同时排除了可识别的患者数据。通过对每个代码的描述,研究人员促使 OpenAI、Google和 Meta 的模型输出最准确的医疗代码。研究人员将生成的代码与原始代码进行了比较,并分析了错误的模式。研究人员报告说,所研究的所有大型语言模型,包括 GPT-4、GPT-3.5、Gemini-pro 和 Llama-2-70b 在再现原始医疗代码方面都显示出有限的准确性(低于 50%),这突出表明这些模型在医疗编码的实用性方面存在很大差距。GPT-4 的性能最好,ICD-9-CM(45.9%)、ICD-10-CM(33.9%)和 CPT 代码(49.8%)的精确匹配率最高。GPT-4 还生成了最高比例的错误代码,但仍然表达了正确的含义。例如,当给出 ICD-9-CM 中"结节性前列腺,无尿路梗阻"的描述时,GPT-4 生成了"结节性前列腺"的代码,展示了其对医学术语相对细微的理解。然而,即使考虑到这些技术上正确的代码,仍然存在大量令人无法接受的错误。其次是 GPT-3.5 模型,该模型的模糊倾向最大。与准确的代码相比,它错误生成的代码中准确但较为笼统的代码比例最高。在这种情况下,当提供 ICD-9-CM 描述"未指定的麻醉不良反应"时,GPT-3.5 生成的代码为"其他未在别处分类的特定不良反应"。研究报告的通讯作者、伊坎山西奈医院数据驱动与数字医学(D3M)和医学(消化内科)助理教授、医学博士、理学硕士阿里-索罗什(Ali Soroush)说:"我们的研究结果突出表明,在医疗编码等敏感业务领域部署人工智能技术之前,亟需进行严格的评估和改进。虽然人工智能拥有巨大的潜力,但必须谨慎对待并不断开发,以确保其在医疗保健领域的可靠性和有效性。"研究人员说,这些模型在医疗保健行业的一个潜在应用是根据临床文本自动分配医疗代码,用于报销和研究目的。"以前的研究表明,较新的大型语言模型在处理数字任务时非常吃力。然而,这些模型从临床文本中分配医疗代码的准确程度尚未在不同的模型中得到深入研究,"共同第一作者、D3M 的生成式人工智能研究项目主任、医学博士 Eyal Klang 说。"因此,我们的目的是评估这些模型能否有效地完成将医疗代码与其相应的官方文本描述相匹配的基本任务。"研究报告的作者提出,将 LLM 与专家知识相结合可以实现医疗代码提取的自动化,从而有可能提高账单的准确性并降低医疗保健的管理成本。"这项研究揭示了人工智能在医疗保健领域的现有能力和挑战,强调了在广泛采用之前进行仔细考虑和进一步完善的必要性,"共同第一作者、西奈山伊坎大学医学教授、查尔斯-布朗夫曼个性化医学研究所所长兼 D3M 系统主管艾琳-费什伯格博士(Irene and Dr. Arthur M. Fishberg)医学博士、医学博士吉里什-纳德卡尔尼(Girish Nadkarni)说。研究人员提醒说,这项研究的人工任务可能并不能完全代表真实世界的情况,在这种情况下,LLM 的表现可能会更糟。下一步,研究团队计划开发量身定制的 LLM 工具,用于准确提取医疗数据和分配账单代码,以提高医疗运营的质量和效率。编译来源:ScitechDaily ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人