一个医疗大语言模型的综合评测框架,具有以下三大特点:

一个医疗大语言模型的综合评测框架,具有以下三大特点: 1.大规模综合性能评测:GenMedicalEval构建了一个覆盖16大主要科室、3个医生培养阶段、6种医学临床应用场景、基于40,000+道医学考试真题和55,000+三甲医院患者病历构建的总计100,000+例医疗评测数据。这一数据集从医学基础知识、临床应用、安全规范等层面全面评估大模型在真实医疗复杂情境中的整体性能,弥补了现有评测基准未能覆盖医学实践中众多实际挑战的不足。 2.深入细分的多维度场景评估:GenMedicalEval融合了医师的临床笔记与医学影像资料,围绕检查、诊断、治疗等关键医疗场景,构建了一系列多样化和主题丰富的生成式评估题目,为现有问答式评测模拟真实临床环境的开放式诊疗流程提供了有力补充。 3.创新性的开放式评估指标和自动化评估模型:为解决开放式生成任务缺乏有效评估指标的难题,GenMedicalEval采用先进的结构化抽取和术语对齐技术,构建了一套创新的生成式评估指标体系,这一体系能够精确衡量生成答案的医学知识准确性。进一步地,基于自建知识库训练了与人工评价相关性较高的医疗自动评估模型,提供多维度医疗评分和评价理由。这一模型的特点是无数据泄露和自主可控,相较于GPT-4等其他模型,具有独特优势。 | #框架

相关推荐

封面图片

研究显示AI大语言模型在处理医疗编码方面有着明显局限性

研究显示AI大语言模型在处理医疗编码方面有着明显局限性 这项研究从西奈山医疗系统 12 个月的常规护理中提取了 27000 多个独特的诊断和手术代码,同时排除了可识别的患者数据。通过对每个代码的描述,研究人员促使 OpenAI、Google和 Meta 的模型输出最准确的医疗代码。研究人员将生成的代码与原始代码进行了比较,并分析了错误的模式。研究人员报告说,所研究的所有大型语言模型,包括 GPT-4、GPT-3.5、Gemini-pro 和 Llama-2-70b 在再现原始医疗代码方面都显示出有限的准确性(低于 50%),这突出表明这些模型在医疗编码的实用性方面存在很大差距。GPT-4 的性能最好,ICD-9-CM(45.9%)、ICD-10-CM(33.9%)和 CPT 代码(49.8%)的精确匹配率最高。GPT-4 还生成了最高比例的错误代码,但仍然表达了正确的含义。例如,当给出 ICD-9-CM 中"结节性前列腺,无尿路梗阻"的描述时,GPT-4 生成了"结节性前列腺"的代码,展示了其对医学术语相对细微的理解。然而,即使考虑到这些技术上正确的代码,仍然存在大量令人无法接受的错误。其次是 GPT-3.5 模型,该模型的模糊倾向最大。与准确的代码相比,它错误生成的代码中准确但较为笼统的代码比例最高。在这种情况下,当提供 ICD-9-CM 描述"未指定的麻醉不良反应"时,GPT-3.5 生成的代码为"其他未在别处分类的特定不良反应"。研究报告的通讯作者、伊坎山西奈医院数据驱动与数字医学(D3M)和医学(消化内科)助理教授、医学博士、理学硕士阿里-索罗什(Ali Soroush)说:"我们的研究结果突出表明,在医疗编码等敏感业务领域部署人工智能技术之前,亟需进行严格的评估和改进。虽然人工智能拥有巨大的潜力,但必须谨慎对待并不断开发,以确保其在医疗保健领域的可靠性和有效性。"研究人员说,这些模型在医疗保健行业的一个潜在应用是根据临床文本自动分配医疗代码,用于报销和研究目的。"以前的研究表明,较新的大型语言模型在处理数字任务时非常吃力。然而,这些模型从临床文本中分配医疗代码的准确程度尚未在不同的模型中得到深入研究,"共同第一作者、D3M 的生成式人工智能研究项目主任、医学博士 Eyal Klang 说。"因此,我们的目的是评估这些模型能否有效地完成将医疗代码与其相应的官方文本描述相匹配的基本任务。"研究报告的作者提出,将 LLM 与专家知识相结合可以实现医疗代码提取的自动化,从而有可能提高账单的准确性并降低医疗保健的管理成本。"这项研究揭示了人工智能在医疗保健领域的现有能力和挑战,强调了在广泛采用之前进行仔细考虑和进一步完善的必要性,"共同第一作者、西奈山伊坎大学医学教授、查尔斯-布朗夫曼个性化医学研究所所长兼 D3M 系统主管艾琳-费什伯格博士(Irene and Dr. Arthur M. Fishberg)医学博士、医学博士吉里什-纳德卡尔尼(Girish Nadkarni)说。研究人员提醒说,这项研究的人工任务可能并不能完全代表真实世界的情况,在这种情况下,LLM 的表现可能会更糟。下一步,研究团队计划开发量身定制的 LLM 工具,用于准确提取医疗数据和分配账单代码,以提高医疗运营的质量和效率。编译来源:ScitechDaily ... PC版: 手机版:

封面图片

开源的基础模型能力评测框架,提供了一套轻量级、易于使用的评测体系,支持主流大模型的性能评估。

开源的基础模型能力评测框架,提供了一套轻量级、易于使用的评测体系,支持主流大模型的性能评估。 其主要特点如下: 轻量易用的评估框架:无缝设计,界面直观,依赖性极小,部署轻松,可扩展性极佳,适应多样化评估场景。 评估方式灵活多样:支持统一提示模板,评估指标丰富,可个性化定制,满足特定需求。 高效、快速的推理部署:支持torch、vLLM等多种模型部署策略,实现多实例部署,实现快速评估流程。 公开透明的开源排行榜:维护开放、可追溯、可复制的评估排行榜,由社区更新驱动,以确保透明度和可信度。 官方权威评测数据:采用广泛认可的官方评测集,确保评测的公平性和标准化,确保结果具有可比性和可重复性。 全面而广泛的模型支持:为广泛的模型提供支持,包括来自 Huggingface 开源存储库的模型和个人训练的模型,确保全面的覆盖范围。 | #框架

封面图片

中文AI能力评测发布,即通用大模型综合性基准。

中文AI能力评测发布,即中文通用大模型综合性基准。 这是针对中文可用的通用大模型的一个测评基准。 它主要回答的问题是:在当前通用大模型大力发展的背景下,中文大模型的效果情况,包括但不限于"这些模型不同任务的效果情况"、"相较于国际上的代表性模型做到了什么程度"、 "这些模型与人类的效果对比如何"。

封面图片

支付宝发布多模态医疗大模型

支付宝发布多模态医疗大模型 7 月 5 日,在 2024 世界人工智能大会,支付宝多模态医疗大模型正式亮相,成为国内首批多模态医疗大模型之一。基于蚂蚁百灵的多模态能力,该模型可实现直接理解并训练音频、视频、图、文等多模态数据。测试期间,对诊疗报告、医学药品、毛发状况等识别准确率达 90% 以上,中英文医疗考试、基准测试达到或超过 GPT4 水准。会上,支付宝还推出了与大模型配套的可信一体机与云解决方案,并与全国 20 家头部三甲医院、医疗管理机构,联合发起 AI 医疗共建计划,探索大模型创新应用。

封面图片

WiNGPT:基于GPT的医疗垂直领域大模型,旨在将专业的医学知识、医疗信息、数据融会贯通,为医疗行业提供智能化的医疗问答、诊断

WiNGPT:基于GPT的医疗垂直领域大模型,旨在将专业的医学知识、医疗信息、数据融会贯通,为医疗行业提供智能化的医疗问答、诊断支持和医学知识等信息服务,提高诊疗效率和医疗服务质量。 核心功能: 医学知识问答:可以回答关于医学、健康、疾病等方面的问题,包括但不限于症状、治疗、药物、预防、检查等。 自然语言理解:理解医学术语、病历等医疗文本信息,提供关键信息抽取和归类 多轮对话:可扮演各种医疗专业角色如医生与用户进行对话,根据上下文提供更加准确的答案。 多任务支持:支持32项医疗任务,八大医疗场景18个子场景。 模型架构:基于Transformer的70亿参数规模大语言模型, 采用RoPE相对位置编码、SwiGLU激活函数、RMSNorm,训练采用Qwen-7b1作为基础预训练模型。 主要特点: 高准确度:基于大规模医疗语料库训练,具有较高的准确率和较低的误诊可能性。 场景导向:针对不同的医疗场景和真实需求进行专门优化和定制,更好的服务应用落地。 迭代优化:持续搜集和学习最新的医学研究,不断提高模型性能和系统功能。 | 下载地址: |

封面图片

一个比较不错的中文大模型解决方案,代码完全开源,无商用限制。

一个比较不错的中文大模型解决方案,代码完全开源,无商用限制。 近日,Colossal-AI 团队充分利用了 LLaMA-2 的基础能力,采用高效的训练方法,仅使用约 8.5B token 数据、15 小时、数千元的训练成本,成功构建了性能卓越的中文 LLaMA-2,在多个评测榜单性能优越。 相较于原始 LLaMA-2,在成功提升中文能力的基础上,进一步提升其英文能力,性能可与开源社区同规模预训练 SOTA 模型媲美。 该项目在 GitHub 完全开源了全套训练流程、代码及权重,无商用限制,并提供了一个完整的评估体系框架 ColossalEval,以实现低成本的可复现性。 不仅如此,相关方案还可迁移应用到任意垂类领域,以及从头预训练大模型的低成本构建。 |

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人