研究:OpenAI模型在评估眼疾方面几乎与医生不相上下

研究:OpenAI模型在评估眼疾方面几乎与医生不相上下 一项研究显示,OpenAI最新的人工智能模型在分析眼部状况方面几乎与专家医生不相上下。这项研究突显了该技术在医学领域的潜力。根据周三发表的一篇论文,GPT-4模型在评估眼部问题和建议治疗方面,超过或达到了除得分最高的专业医生之外所有人的得分。发表在《公共科学图书馆数字健康》杂志上的一篇论文的主要作者Arun Thirunavukarasu说:“这项工作表明,这些大型语言模型在眼睛健康方面的知识和推理能力现在几乎与专家无法区分。”Thirunavukarasu在剑桥大学临床医学院学习期间进行了这项研究,他表示:“我们现在正在以一种更加开放的方式进行训练,并发现这些模型几乎具备了它们没有被明确训练的能力。”伦敦大学学院(UCL)人工医学智能教授皮尔斯•基恩表示,这项最新研究“令人兴奋”,其利用人工智能对专家的表现进行基准测试的想法“超级有趣”。同时也隶属于伦敦摩尔菲尔德眼科医院的基恩认为,在将这项技术应用于临床之前,还需要做更多的工作。

相关推荐

封面图片

OpenAI的模型在评估眼疾方面几乎与医生不相上下

OpenAI的模型在评估眼疾方面几乎与医生不相上下 眼科一直是将人工智能应用于临床并解决其应用障碍的工作重点,例如模型通过虚构数据产生"幻觉"的倾向。"这项工作表明,这些大型语言模型在眼健康方面的知识和推理能力现在几乎与专家无异,"发表在《PLOS 数字健康》杂志上的一篇论文的主要作者 Arun Thirunavukarasu 说。他补充说:"我们看到了回答相当复杂问题的能力。研究使用了 87 种不同的病人情况来测试 GPT-4 在非专业初级医生、见习眼科医师和专家眼科医师中的表现。论文称,该模型的表现优于初级医生,并取得了与许多专家相似的结果。研究人员说,这项研究之所以引人注目,是因为它将人工智能模型的能力与执业医生的能力进行了比较,而不是与检查结果进行比较。它还运用了生成式人工智能的广泛能力,而不是之前一些人工智能医学研究中测试的狭窄能力,如通过病人扫描诊断癌症风险。该模型在需要一阶记忆的问题和需要高阶推理的问题(如插值、解释和处理信息的能力)上表现同样出色。Thirunavukarasu 在剑桥大学临床医学院学习期间开展了这项研究,他目前在牛津大学工作,他认为可以通过扩大数据集(包括管理算法、去身份化的病人笔记和教科书)对模型进行训练,从而进一步完善模型。这就要求在扩大信息来源的数量和性质的同时,确保信息保持良好的质量,在两者之间取得"棘手的平衡"。潜在的临床用途可能是对病人进行分流,或在专业医护人员有限的情况下使用。有证据表明,人工智能有助于诊断,例如能发现可能被医生遗漏的早期乳腺癌,因此在临床环境中部署人工智能的兴趣大增。与此同时,考虑到错误诊断可能对患者造成的伤害,研究人员也在努力解决如何控制严重风险的问题。伦敦大学学院人工医学智能教授皮尔斯-基恩(Pearse Keane)说,这项最新研究"令人兴奋",其利用人工智能为专家的表现设定基准的想法"超级有趣"。基恩也是伦敦莫菲尔德眼科医院的成员,他也认为,在将这些技术引入临床之前,还需要做更多的工作。他列举了自己去年研究中的一个例子:向一个大型语言模型询问有关眼部黄斑变性的问题,结果该模型在回答中给出了根本是"杜撰"出来的参考资料。"我们必须在对这项技术的兴奋和潜在的巨大利益之间取得平衡.....至少要有谨慎和怀疑。"他说。 ... PC版: 手机版:

封面图片

该模型在基础能力评估中与 Meta-Llama3-70B 不相上下。支持 32K Token 的上下文长度。提供包括英语、中文、

该模型在基础能力评估中与 Meta-Llama3-70B 不相上下。支持 32K Token 的上下文长度。提供包括英语、中文、法语、西班牙语、日语、韩语、越南语等多种语言的多语言支持。 模型下载: 标签: #通义千问 #AI 频道: @GodlyNews1 投稿: @GodlyNewsBot

封面图片

百度发布文心一言4.0,宣称该模型在复杂度和通用能力方面与GPT-4不相上下

百度发布文心一言4.0,宣称该模型在复杂度和通用能力方面与GPT-4不相上下 百度公司创始人李彦宏宣布,其公司的大型语言模型终于赶上了OpenAI先进的GPT-4,在中国开发可与美国匹敌的人工智能的竞赛中取得了领先地位。 这位亿万富翁周二在北京登台演讲,对文心一言(Ernie) 4.0 进行了问答,旨在展示其即时提供答案和解决复杂谜题的能力。李彦宏在一个由钢铁厂改建而成的礼堂里对座无虚席的观众说,文心一言在复杂性和一般能力方面已经与OpenAI的开创性产品不相上下。 著名的“文心一言”聊天机器人的用户数量现已突破 4500 万 这一里程碑仍落后于 ChatGPT 的约 1.8 亿用户数量,尽管 ChatGPT 早在几个月前就在美国推出了该聊天机器人。百度是中国搜索领域的领头羊,经常被称为本土的谷歌,它寄希望于人工智能来帮助自己超越阿里巴巴集团控股有限公司和腾讯控股有限公司等控制互联网其他领域的竞争对手。百度股价周二下跌约 1.5%。 李彦宏对听众说:“文心一言在任何方面都不逊色于GPT-4。” 早在今年 6 月,百度就曾表示,早期版本的“文心一言”在综合能力上超过了 OpenAI 基于 GPT-3.5 开发的聊天机器人。百度还援引一家地方报纸的测试结果称,它在几项中文能力上超过了 GPT-4。百度现在希望“文心一言机器人”能成为在线营销的核心业务,帮助百度挽回被抖音所有者字节跳动和腾讯运营的多功能应用夺走的用户。

封面图片

研究显示AI大语言模型在处理医疗编码方面有着明显局限性

研究显示AI大语言模型在处理医疗编码方面有着明显局限性 这项研究从西奈山医疗系统 12 个月的常规护理中提取了 27000 多个独特的诊断和手术代码,同时排除了可识别的患者数据。通过对每个代码的描述,研究人员促使 OpenAI、Google和 Meta 的模型输出最准确的医疗代码。研究人员将生成的代码与原始代码进行了比较,并分析了错误的模式。研究人员报告说,所研究的所有大型语言模型,包括 GPT-4、GPT-3.5、Gemini-pro 和 Llama-2-70b 在再现原始医疗代码方面都显示出有限的准确性(低于 50%),这突出表明这些模型在医疗编码的实用性方面存在很大差距。GPT-4 的性能最好,ICD-9-CM(45.9%)、ICD-10-CM(33.9%)和 CPT 代码(49.8%)的精确匹配率最高。GPT-4 还生成了最高比例的错误代码,但仍然表达了正确的含义。例如,当给出 ICD-9-CM 中"结节性前列腺,无尿路梗阻"的描述时,GPT-4 生成了"结节性前列腺"的代码,展示了其对医学术语相对细微的理解。然而,即使考虑到这些技术上正确的代码,仍然存在大量令人无法接受的错误。其次是 GPT-3.5 模型,该模型的模糊倾向最大。与准确的代码相比,它错误生成的代码中准确但较为笼统的代码比例最高。在这种情况下,当提供 ICD-9-CM 描述"未指定的麻醉不良反应"时,GPT-3.5 生成的代码为"其他未在别处分类的特定不良反应"。研究报告的通讯作者、伊坎山西奈医院数据驱动与数字医学(D3M)和医学(消化内科)助理教授、医学博士、理学硕士阿里-索罗什(Ali Soroush)说:"我们的研究结果突出表明,在医疗编码等敏感业务领域部署人工智能技术之前,亟需进行严格的评估和改进。虽然人工智能拥有巨大的潜力,但必须谨慎对待并不断开发,以确保其在医疗保健领域的可靠性和有效性。"研究人员说,这些模型在医疗保健行业的一个潜在应用是根据临床文本自动分配医疗代码,用于报销和研究目的。"以前的研究表明,较新的大型语言模型在处理数字任务时非常吃力。然而,这些模型从临床文本中分配医疗代码的准确程度尚未在不同的模型中得到深入研究,"共同第一作者、D3M 的生成式人工智能研究项目主任、医学博士 Eyal Klang 说。"因此,我们的目的是评估这些模型能否有效地完成将医疗代码与其相应的官方文本描述相匹配的基本任务。"研究报告的作者提出,将 LLM 与专家知识相结合可以实现医疗代码提取的自动化,从而有可能提高账单的准确性并降低医疗保健的管理成本。"这项研究揭示了人工智能在医疗保健领域的现有能力和挑战,强调了在广泛采用之前进行仔细考虑和进一步完善的必要性,"共同第一作者、西奈山伊坎大学医学教授、查尔斯-布朗夫曼个性化医学研究所所长兼 D3M 系统主管艾琳-费什伯格博士(Irene and Dr. Arthur M. Fishberg)医学博士、医学博士吉里什-纳德卡尔尼(Girish Nadkarni)说。研究人员提醒说,这项研究的人工任务可能并不能完全代表真实世界的情况,在这种情况下,LLM 的表现可能会更糟。下一步,研究团队计划开发量身定制的 LLM 工具,用于准确提取医疗数据和分配账单代码,以提高医疗运营的质量和效率。编译来源:ScitechDaily ... PC版: 手机版:

封面图片

谷歌医疗大模型登上Nature

谷歌医疗大模型登上Nature 在5月I/O大会上,Med-PaLM 2重磅升级,甚至达到了专家水准。 今天,谷歌揭秘微调后的Med-PaLM,同样在医学问题上一骑绝尘。研究成果已登Nature。 这项研究最重要的贡献在于,谷歌提出了全新的MultiMedQA评估基准,以评测大模型在临床方面的能力。 OpenAI带着ChatGPT在通用大模型领域领跑,而AI+医疗这条赛道,谷歌称得上是头部领先者。 频道 @youtube_hothot

封面图片

RMBG v1.4一个新的背景分割开源模型,效果非常好,感觉跟现在顶尖的产品 remove bg 的效果不相上下了。

RMBG v1.4一个新的背景分割开源模型,效果非常好,感觉跟现在顶尖的产品 remove bg 的效果不相上下了。 该模型在精心挑选的数据集上进行了训练,其中包括:普通图片库、电子商务、游戏和广告内容,使其适用于商业用例,为大规模的企业内容创建提供动力。 模型使用超过 12,000 张高质量、高分辨率、手动标记(像素精度)、完全许可的图像进行训练。 其准确性、效率和多功能性目前可与领先的开源模型相媲美。 模型下载:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人