AMIE是一个基于大语言模型(LLM)的研究型AI系统,用于医学诊断推理和对话。它通过真实世界的数据集进行训练,包括医学推理、医

AMIE是一个基于大语言模型(LLM)的研究型AI系统,用于医学诊断推理和对话。它通过真实世界的数据集进行训练,包括医学推理、医学总结和真实世界的临床对话。 AMIE使用了一种新的自弈仿真对话学习环境,可以在大量的疾病条件、专科和患者环境下提高诊断对话的质量。 研究人员设计了一项随机双盲交叉研究,使用经验证的患者角色扮演者通过在线多轮同步文本聊天与执业医生或AMIE系统进行虚拟远程客观结构化临床考试(OSCE)。 在149个不同科室的病例中,与20名初级保健医生相比,AMIE在诊断准确性和咨询质量的多个方面表现更好,从专科医生和患者角色的视角看是这样。 AMIE作为辅助工具可显著提高临床医生解决复杂病例的诊断准确率,但AMIE有一定局限性,这项研究应谨慎解释,不能代表日常临床实践。需要更多研究来实现安全可靠的AI系统。 临床专业知识仍然短缺,AMIE是探索AI系统与熟练临床医生相当属性的未来愿景的尝试,但还需要大量科学研究。

相关推荐

封面图片

WiNGPT:基于GPT的医疗垂直领域大模型,旨在将专业的医学知识、医疗信息、数据融会贯通,为医疗行业提供智能化的医疗问答、诊断

WiNGPT:基于GPT的医疗垂直领域大模型,旨在将专业的医学知识、医疗信息、数据融会贯通,为医疗行业提供智能化的医疗问答、诊断支持和医学知识等信息服务,提高诊疗效率和医疗服务质量。 核心功能: 医学知识问答:可以回答关于医学、健康、疾病等方面的问题,包括但不限于症状、治疗、药物、预防、检查等。 自然语言理解:理解医学术语、病历等医疗文本信息,提供关键信息抽取和归类 多轮对话:可扮演各种医疗专业角色如医生与用户进行对话,根据上下文提供更加准确的答案。 多任务支持:支持32项医疗任务,八大医疗场景18个子场景。 模型架构:基于Transformer的70亿参数规模大语言模型, 采用RoPE相对位置编码、SwiGLU激活函数、RMSNorm,训练采用Qwen-7b1作为基础预训练模型。 主要特点: 高准确度:基于大规模医疗语料库训练,具有较高的准确率和较低的误诊可能性。 场景导向:针对不同的医疗场景和真实需求进行专门优化和定制,更好的服务应用落地。 迭代优化:持续搜集和学习最新的医学研究,不断提高模型性能和系统功能。 | 下载地址: |

封面图片

法国 Bioptimus 公司发布疾病诊断人工智能模型H-optimus-0

法国 Bioptimus 公司发布疾病诊断人工智能模型H-optimus-0 这家初创公司是众多试图应用人工智能实现医学突破的公司之一。Google的 DeepMind 最近发布了新版 AlphaFold,这是一个为预测蛋白质结构而开发的具有里程碑意义的人工智能系统。K Health是一家美国初创公司,它开发的聊天机器人能在病人看医生之前与他们对话,该公司在一笔交易中融资5000万美元,估值约为9亿美元。Bioptimus公司首席技术官罗多尔夫-詹纳顿(Rodolphe Jenatton)说,公司选择了开源模式,以提高该领域的透明度并加快发展。该公司表示,希望进一步的发展能让该模型在人类生物学的不同层面发挥作用,目前的模型则只关注组织。人们对使用人工智能诊断医疗状况仍存在广泛担忧。皮尤研究中心2023年的一项调查发现,60%的病人会对医生依靠人工智能为他们提供医疗服务感到不舒服。本周早些时候,专家们呼吁英国国家卫生服务局将重点放在基本的癌症护理上,而不是人工智能"灵丹妙药"上。2021年,《自然医学》(Nature Medicine)杂志上的一项研究发现,应用于胸部X光检查的人工智能算法对女性、黑人和西班牙裔患者以及享受医疗补助的患者诊断不足。詹纳顿将H-optimus-0的首次发布描述为"更长旅程的一部分"。Bioptimus 公司于今年 2 月在法国生物技术公司 Owkin Inc.这家初创公司从 Sofinnova Partners、国有投资银行 Bpifrance 和电信亿万富翁 Xavier Niel 等投资者那里获得了 3500 万美元的种子资金。 ... PC版: 手机版:

封面图片

Google的Med-Gemini医疗人工智能模型被证明表现不输人类医生

Google的Med-Gemini医疗人工智能模型被证明表现不输人类医生 医生每天要治疗众多病人,他们的需求从简单到非常复杂。为了提供有效的医疗服务,他们必须熟悉每位患者的健康记录,了解最新的治疗程序和治疗方法。此外,建立在同理心、信任和沟通基础上的医患关系也至关重要。要想让人工智能接近真实世界中的医生,它必须能够做到所有这些。Google的Gemini模型是新一代多模态人工智能模型,这意味着它们可以处理来自不同模态的信息,包括文本、图像、视频和音频。这些模型擅长语言和对话,理解它们所训练的各种信息,以及所谓的"长语境推理",即从大量数据(如数小时的视频或数十小时的音频)中进行推理。Gemini医学模型具有Gemini基础模型的所有优点,但对其进行了微调。研究人员测试了这些以药物为重点的调整,并将结果写入了论文中。这篇论文长达 58 页,内容丰富,我们选取了其中最令人印象深刻的部分。自我培训和网络搜索功能要做出诊断并制定治疗方案,医生需要将自己的医学知识与大量其他相关信息结合起来:病人的症状、病史、手术史和社会史、化验结果和其他检查结果,以及病人对先前治疗的反应。治疗方法是"流动的盛宴",现有的治疗方法会不断更新,新的治疗方法也会不断推出。所有这些都会影响医生的临床推理。因此,Google在 Med-Gemini 中加入了网络搜索功能,以实现更高级的临床推理。与许多以医学为重点的大型语言模型(LLM)一样,Med-Gemini 也是在 MedQA 上进行训练的,MedQA 是美国医学执照考试(USMLE)的多选题,旨在测试不同场景下的医学知识和推理能力。Med-Gemini 如何使用自我培训和网络搜索工具不过,Google也为他们的模型开发了两个新的数据集。第一个是 MedQA-R(推理),它通过合成生成的推理解释(称为"思维链",CoTs)对 MedQA 进行了扩展。第二种是 MedQA-RS(推理和搜索),它为模型提供使用网络搜索结果作为额外上下文的指令,以提高答案的准确性。如果一个医学问题的答案不确定,就会提示模型进行网络搜索,以获取更多信息来解决不确定问题。Med-Gemini 在 14 个医学基准上进行了测试,并在 10 个基准上建立了新的最先进(SoTA)性能,在可以进行比较的每个基准上都超过了 GPT-4 模型系列。在 MedQA(USMLE)基准测试中,Med-Gemini 利用其不确定性指导搜索策略达到了 91.1% 的准确率,比Google之前的医学 LLMMed-PaLM 2 高出 4.5%。在包括《新英格兰医学杂志》(NEJM)图像挑战(具有挑战性的临床病例图像,从 10 个病例中做出诊断)在内的 7 项多模态基准测试中,Med-Gemini 的表现优于 GPT-4,平均相对优势为 44.5%。研究人员说:"虽然结果......很有希望,但还需要进一步开展大量研究。例如,我们还没有考虑将搜索结果限制在更具权威性的医学来源上,也没有考虑使用多模态搜索检索或对搜索结果的准确性和相关性以及引文的质量进行分析。此外,是否还能教会较小规模的法律硕士使用网络搜索还有待观察。我们将这些探索留待今后的工作中进行。"从冗长的电子病历中检索特定信息电子病历(EHR)可能很长,但医生需要了解其中包含的内容。更复杂的是,它们通常包含相似的文本("糖尿病"与"糖尿病肾病")、拼写错误、缩略词("Rx"与"prescription")和同义词("脑血管意外"与"中风"),这些都会给人工智能带来挑战。为了测试Med-Gemini理解和推理长语境医疗信息的能力,研究人员使用一个大型公开数据库重症监护医疗信息市场(MIMIC-III)执行了一项所谓的"大海捞针任务",该数据库包含重症监护患者的去标识化健康数据。该模型的目标是在电子病历("大海")中的大量临床记录中检索到与罕见而微妙的医疗状况、症状或程序("针")相关的内容。共收集了 200 个案例,每个案例都由 44 名病史较长的重症监护室患者的去标识化电子病历记录组成。他们必须具备以下条件:100 多份医学笔记,每个例子的长度从 20 万字到 70 万字不等在每个例子中,条件只被提及一次每个样本都有一个感兴趣的条件这项大海捞针的任务分为两个步骤。首先,Med-Gemini 必须从大量记录中检索所有与指定医疗问题相关的内容。其次,该模型必须评估所有提及内容的相关性,对其进行分类,并得出结论:患者是否有该问题的病史,同时为其决定提供清晰的推理。Med-Gemini 的长语境能力示例与 SoTA 方法相比,Med-Gemini 在"大海捞针"任务中表现出色。它的精确度为 0.77,而 SoTA 方法为 0.85,召回率也超过了 SoTA 方法:0.76 对 0.73。研究人员说:"也许 Med-Gemini 最引人注目的方面是长语境处理能力,因为它们为医疗人工智能系统开辟了新的性能前沿和新颖的、以前不可行的应用可能性。这项'大海捞针'式的检索任务反映了临床医生在现实世界中面临的挑战,Med-Gemini-M 1.5 的性能表明,它有潜力通过从海量患者数据中高效提取和分析信息,显著降低认知负荷,增强临床医生的能力。"有关这些关键研究点的浅显易懂的讨论,以及Google和微软之间争论的最新情况,请观看《AI Explained》从 13:38 开始的视频。新的 OpenAI 模型即将诞生,人工智能的赌注又提高了(还有 Med Gemini、GPT 2 聊天机器人和 Scale AI)与 Med-Gemini 对话在一次实际应用测试中,Med-Gemini 收到了一位患者用户关于皮肤肿块瘙痒的询问。在要求提供图像后,模型提出了适当的后续问题,并正确诊断出了这种罕见的病变,同时建议用户下一步该怎么做。Med-Gemini 诊断对话在皮肤科的应用实例Med-Gemini 还被要求在医生等待放射科医生的正式报告期间,为其解读胸部 X 光片,并编写一份通俗易懂的英文版报告提供给病人。Med-Gemini 的放射诊断对话辅助系统研究人员说:"Med-Gemini-M 1.5 的多模态对话功能很有前景,因为它们无需进行任何特定的医疗对话微调即可实现。这些功能可以实现人、临床医生和人工智能系统之间无缝、自然的互动。"不过,研究人员认为还需要进一步的工作。他们说:"这种能力在帮助临床医生和患者等现实世界应用方面具有巨大潜力,但当然也会带来非常大的风险。在强调这一领域未来研究潜力的同时,我们并没有在这项工作中对临床对话的能力进行严格的基准测试,正如其他人之前在对话诊断人工智能的专门研究中所探索的那样。"未来愿景研究人员承认,要做的工作还有很多,但 Med-Gemini 模型的初步能力无疑是很有希望的。重要的是,他们计划在整个模型开发过程中纳入负责任的人工智能原则,包括隐私和公平。隐私方面的考虑尤其需要植根于现有的医疗保健政策和法规,以管理和保护患者信息。公平性是另一个可能需要关注的领域,因为医疗保健领域的人工智能系统有可能无意中反映或放大历史偏见和不公平,从而可能导致边缘化群体的不同模型性能和有害结果。但归根结底,Med-Gemini 被视为一种造福人类的工具。大型多模态语言模型为健康和医学带来了一个全新的时代。Gemini"和"医学Gemini"所展示的能力表明,在加速生物医学发现、协助医疗保健服务和体验的深度和广度方面,都有了重大飞跃。然而,在提高模型能力的同时,必须对这些系统的可靠性和安全性给予细致的关注。通过优先考虑这两个方面,我们可以负责任地展望未来,让人工智能系统的能力成为科学进步和医疗保健有意义且安全的加速器。该研究可通过预印本网站arXiv 获取。 ... PC版: 手机版:

封面图片

R语言与高级医学统计学

R语言与高级医学统计学 描述:一篇优秀的科研论文,离不开对原始数据的深刻剖析和探索。如今的数据,无论是临床上的疾病数据,抑或是患者的基因数据,可以说是海量的,如何从海量的数据中提取有价值的信息,这是一个值得研究的问题。也正是基于这种考量,统计学在今天迎来了又一次的蓬勃发展。而医学统计学作为统计学中不可分割的一部分,在我们的医学科研中的地位越来越重要。 链接: 大小:未统计 标签:#课程 #知识 来自:雷锋 频道:@Aliyundrive_Share_Channel 群组:@alyd_g 投稿:@AliYunPanBot

封面图片

一个医疗大语言模型的综合评测框架,具有以下三大特点:

一个医疗大语言模型的综合评测框架,具有以下三大特点: 1.大规模综合性能评测:GenMedicalEval构建了一个覆盖16大主要科室、3个医生培养阶段、6种医学临床应用场景、基于40,000+道医学考试真题和55,000+三甲医院患者病历构建的总计100,000+例医疗评测数据。这一数据集从医学基础知识、临床应用、安全规范等层面全面评估大模型在真实医疗复杂情境中的整体性能,弥补了现有评测基准未能覆盖医学实践中众多实际挑战的不足。 2.深入细分的多维度场景评估:GenMedicalEval融合了医师的临床笔记与医学影像资料,围绕检查、诊断、治疗等关键医疗场景,构建了一系列多样化和主题丰富的生成式评估题目,为现有问答式评测模拟真实临床环境的开放式诊疗流程提供了有力补充。 3.创新性的开放式评估指标和自动化评估模型:为解决开放式生成任务缺乏有效评估指标的难题,GenMedicalEval采用先进的结构化抽取和术语对齐技术,构建了一套创新的生成式评估指标体系,这一体系能够精确衡量生成答案的医学知识准确性。进一步地,基于自建知识库训练了与人工评价相关性较高的医疗自动评估模型,提供多维度医疗评分和评价理由。这一模型的特点是无数据泄露和自主可控,相较于GPT-4等其他模型,具有独特优势。 | #框架

封面图片

OpenAI的模型在评估眼疾方面几乎与医生不相上下

OpenAI的模型在评估眼疾方面几乎与医生不相上下 眼科一直是将人工智能应用于临床并解决其应用障碍的工作重点,例如模型通过虚构数据产生"幻觉"的倾向。"这项工作表明,这些大型语言模型在眼健康方面的知识和推理能力现在几乎与专家无异,"发表在《PLOS 数字健康》杂志上的一篇论文的主要作者 Arun Thirunavukarasu 说。他补充说:"我们看到了回答相当复杂问题的能力。研究使用了 87 种不同的病人情况来测试 GPT-4 在非专业初级医生、见习眼科医师和专家眼科医师中的表现。论文称,该模型的表现优于初级医生,并取得了与许多专家相似的结果。研究人员说,这项研究之所以引人注目,是因为它将人工智能模型的能力与执业医生的能力进行了比较,而不是与检查结果进行比较。它还运用了生成式人工智能的广泛能力,而不是之前一些人工智能医学研究中测试的狭窄能力,如通过病人扫描诊断癌症风险。该模型在需要一阶记忆的问题和需要高阶推理的问题(如插值、解释和处理信息的能力)上表现同样出色。Thirunavukarasu 在剑桥大学临床医学院学习期间开展了这项研究,他目前在牛津大学工作,他认为可以通过扩大数据集(包括管理算法、去身份化的病人笔记和教科书)对模型进行训练,从而进一步完善模型。这就要求在扩大信息来源的数量和性质的同时,确保信息保持良好的质量,在两者之间取得"棘手的平衡"。潜在的临床用途可能是对病人进行分流,或在专业医护人员有限的情况下使用。有证据表明,人工智能有助于诊断,例如能发现可能被医生遗漏的早期乳腺癌,因此在临床环境中部署人工智能的兴趣大增。与此同时,考虑到错误诊断可能对患者造成的伤害,研究人员也在努力解决如何控制严重风险的问题。伦敦大学学院人工医学智能教授皮尔斯-基恩(Pearse Keane)说,这项最新研究"令人兴奋",其利用人工智能为专家的表现设定基准的想法"超级有趣"。基恩也是伦敦莫菲尔德眼科医院的成员,他也认为,在将这些技术引入临床之前,还需要做更多的工作。他列举了自己去年研究中的一个例子:向一个大型语言模型询问有关眼部黄斑变性的问题,结果该模型在回答中给出了根本是"杜撰"出来的参考资料。"我们必须在对这项技术的兴奋和潜在的巨大利益之间取得平衡.....至少要有谨慎和怀疑。"他说。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人