问医断病这届AI行不行？科学家评估大型语言模型回答医学问题的能力

问医断病这届AI行不行？科学家评估大型语言模型回答医学问题的能力图为研究团队的方法和现有技术的比较。Flan-PaLM540B模型在MedQA，MedMCQA和PubMedQA数据集上均超过了以往最先进的SOTA，每列上方显示的是准确率百分比。图片来源：《自然》就其本身而言，人工智能（AI）给出的答案是准确的。但英国巴斯大学教授詹姆斯·达文波特指出了医学问题和实际行医之间的区别，他认为“行医并不只是回答医学问题，如果纯粹是回答医学问题，我们就不需要教学医院，医生也不需要在学术课程之后接受多年的培训了。”鉴于种种疑惑，在《自然》杂志新近发表的一篇论文中，全球顶尖的人工智能专家们展示了一个基准，用于评估大型自然语言模型能多好地解决人们的医学问题。现有的模型尚不完善最新的这项评估，来自Google研究院和深度思维公司。专家们认为，人工智能模型在医学领域有许多潜力，包括知识检索和支持临床决策。但现有的模型尚不完善，例如可能会编造令人信服的医疗错误信息，或纳入偏见加剧健康不平等。因此才需要对其临床知识进行评估。相关的评估此前并非没有。然而，过去通常依赖有限基准的自动化评估，例如个别医疗测试得分。这转化到真实世界中，可靠性和价值都有欠缺。而且，当人们转向互联网获取医疗信息时，他们会遭遇“信息超载”，然后从10种可能的诊断中选择出最坏的一种，从而承受很多不必要的压力。研究团队希望语言模型能提供简短的专家意见，不带偏见、表明其引用来源，并合理表达出不确定性。5400亿参数的LLM表现如何为评估LLM编码临床知识的能力，Google研究院的专家希库费·阿孜孜及其同事探讨了它们回答医学问题的能力。团队提出了一个基准，称为“MultiMedQA”：它结合了6个涵盖专业医疗、研究和消费者查询的现有问题回答数据集以及“HealthSearchQA”——这是一个新的数据集，包含3173个在线搜索的医学问题。团队随后评估了PaLM（一个5400亿参数的LLM）及其变体Flan-PaLM。他们发现，在一些数据集中Flan-PaLM达到了最先进水平。在整合美国医师执照考试类问题的MedQA数据集中，Flan-PaLM超过此前最先进的LLM达17%。不过，虽然Flan-PaLM的多选题成绩优良，进一步评估显示，它在回答消费者的医疗问题方面存在差距。专精医学的LLM令人鼓舞为解决这一问题，人工智能专家们使用一种称为设计指令微调的方式，进一步调试Flan-PaLM适应医学领域。同时，研究人员介绍了一个专精医学领域的LLM——Med-PaLM。设计指令微调是让通用LLM适用新的专业领域的一种有效方法。产生的模型Med-PaLM在试行评估中表现令人鼓舞。例如，Flan-PaLM被一组医师评分与科学共识一致程度仅61.9%的长回答，Med-PaLM的回答评分为92.6%，相当于医师作出的回答（92.9%）。同样，Flan-PaLM有29.7%的回答被评为可能导致有害结果，Med-PaLM仅5.8%，相当于医师所作的回答（6.5%）。研究团队提到，结果虽然很有前景，但有必要作进一步评估，特别是在涉及安全性、公平性和偏见方面。换句话说，在LLM的临床应用可行之前，还有许多限制要克服。...PC版：https://www.cnbeta.com.tw/articles/soft/1371591.htm手机版：https://m.cnbeta.com.tw/view/1371591.htm

在Telegram中查看

相关推荐

谷歌医疗大模型登上Nature杂志水平媲美临床医生 AI+医疗有望加速融合

谷歌医疗大模型登上Nature杂志水平媲美临床医生AI+医疗有望加速融合研究人员表示，当回答医学问题时，微调后的医疗大模型Med-PaLM表现良好，一组临床医生对其回答的评分为92.6%，与现实中临床医生的水平（92.9%）相当。临床医生对答案的评估除了专家评估，研究团队还请一组非领域专家（印度的非医学背景普通人）评估答案。Med-PaLM在80.3%的情况下被认为是有帮助的。另外，Med-PaLM的答案在94.4%的情况下被认为直接回答了用户问题，临床医生的答案在95.9%。非医学背景的人对答案的评估而MultiMedQA涵盖七个医学问答数据集，包括医学考试、医学研究、消费者查询等相关问题和回答，以评测大模型在临床方面的能力。▌技术尚不成熟但科技大佬强烈看好在AI+医疗领域，Google走在前列。其最新的医疗大模型Med-PaLM2为首个在美国医疗执照考试中达到专家水平的大模型。据华尔街日报报道，自4月份以来，该模型一直在美国梅奥诊所等顶尖私立医院进行测试。据Google在5月份发布的论文，和其他大模型类似，GoogleMed-PaLM2也存在“幻觉”问题，容易“胡言乱语”，但总体来看，Google研究人员认为其表现与实际医生不相上下。曾参与训练Med-PaLM2Google高级研究主管GregCorrado表示：“我并不觉得这种技术现在已经达到了我愿意让家人使用的程度，但在医疗领域AI可以带来好处的环节，它能创造10倍的价值。”这与AMDCEO苏姿丰不谋而合，几天前落幕的世界人工智能大会上，苏姿丰表示，基本上每个层面的科研都受到你所拥有的计算能力的影响，无论是气候研究还是能源研究，所有这些领域的研究都可以在人工智能下得到显著加速，个人对医疗卫生的前景非常期待，认为医疗保健是能找出的一个AI能真正影响人类结果的领域，会帮助医生作出更好的诊断，加速疾病预防研究。▌大模型为AI医疗插上翅膀应用场景有望加速落地Google之外，微软、IBM等科技大厂一直在持续关注AI医疗方面的应用落地。在这轮大模型浪潮之前，AI检测心电图、X光片已在一些医院中投入应用。大模型则有望为AI医疗插上翅膀。华泰证券便表示，随着基于大模型的生成式AI的出现，AI+医疗有望迎来一波新的发展机遇。浙商证券分析师刘雯蜀称，AI大模型将在医疗信息化、互联网医疗、医卫和医保信息化等领域产生生产力变革性推动。综合来看，在大模型的加持下，智能问诊、新药开发、医疗影像这三大AI应用场景有望加速落地。国内，AI与医疗的融合进程也在加快。5月，在上海市经济信息化委的指导下，国内首个基于算力网络的医疗算法模型Uni-talk发布。产业端，科大讯飞、百度、云从科技、卫宁健康等公司都正积极布局医疗领域的垂直大模型；CRO企业药明康德、美迪西、药石科技、成都先导、皓元医药、泓博医药等公司均对AI制药相关业务有所布局。华西证券表示，Med-PaLM2进入实测，医疗大模型应用加速，具备行业Know-How和客户基础，在AI领域早有布局，且积极拥抱大模型技术变革的公司具有先发优势，受益标的包括润达医疗、创业慧康、嘉和美康、安必平、健麾信息、数字人等。...PC版：https://www.cnbeta.com.tw/articles/soft/1370653.htm手机版：https://m.cnbeta.com.tw/view/1370653.htm

Google DeepMind 用大模型解决尚未解决的数学问题

GoogleDeepMind用大模型解决尚未解决的数学问题GoogleDeepMind的研究人员在《》期刊上发表论文，报告他们首次用大模型（LLM）发现了一个尚未解决的数学问题的解。GoogleDeepMind的新工具被称为“”，研究人员将一组产生创造性解决方案的LLM和一个作为检查者以避免错误建议的评估程序结合起来。接着将一个多次迭代此过程的演化方法，作为输入来引导LLM。结果表明，这种方法可以得到新的、可验证的正确结果。他们将“FunSearch”应用到了著名的上限集问题（数学中涉及计数和排列领域的一个中心问题），发现了超越最著名上限集的大上限集新构造。研究人员表示，“FunSearch”的成功关键是它会寻找那些描述怎样解决问题的程序，而非直接寻找解决办法。因为“FunSearch”的结果易于被解释和验证，这意味着这一方法有望激发科学家在该领域的进一步思考。来源，频道：@kejiqu群组：@kejiquchat

MAmmoTH：专门为解决通用数学问题而定制的开源大语言模型。

MAmmoTH：专门为解决通用数学问题而定制的开源大语言模型。MAmmoTH模型结合了CoT和PoT两种思维方式，使其能够更全面地解决各种数学问题（从基础算术到高等数学）。在九个数学推理数据集上显著超越了现有的开源模型，平均准确率提高了13%到29%。MAmmoTH在一个精心策划的指导调优数据集MathInstruct上进行训练，MathInstruct从13个带有中间理由的数学数据集中编译而来，其中六个是由作者新策划的。MAmmoTH基于LLaMa2和CodeLlama训练的数学领域的开源LLM，有7B、13B、34B、70B四个版本。MAmmoTH的工作原理是通过混合指导调优方法，结合两种不同的思维方式，训练模型来解决各种数学问题。这种方法确保了模型在各种数学领域都有很好的表现，并且在实际应用中也取得了显著的性能提升。

马斯克 xAI 公布大型语言模型 Grok

马斯克xAI公布大型语言模型GrokGrok是一款模仿《银河系漫游指南》的AI，因此几乎可以回答任何问题。它会机智地回答问题且有叛逆倾向，讨厌幽默的人可能不适合它。它还将回答大多数AI会拒绝的尖锐问题。xAI先是训练了330亿参数的原型模型Grok-0，接着在过去两个月训练出了Grok-1。初始版本上下文支持8192个token。未来将添加其它感官如视觉和听觉。预训练数据截至2023年第三季度，根本优势是可以通过X/Twitter实时了解世界信息流。推理和编码基准测试中：Grok-1强过GPT-3.5，弱于PaLM2(Bard)、Claude2、GPT-4。《2023年5月匈牙利全国高中数学考试》测试中(防止AI"背题")：1.GPT-4(68%)2.Grok-1(59%)3.Claude-2(55%)4.GPT-3.5(41%)5.Grok-0(37%)投稿：@ZaiHuaBot频道：@TestFlightCN

一篇写的非常好的文章，详细介绍了如何对大语言模型的质量进行评估。

一篇写的非常好的文章，详细介绍了如何对大语言模型的质量进行评估。流程包括单元测试、人工评估、模型评估和A/B测试,强调快速迭代和数据管理的重要性。一个好的测试流程是模型进步的必要条件，如果没办法准确测试模型质量，就没办法帮助模型进步。下面是大致的内容整理，后面有全文翻译：大语言模型产品的评估系统评估系统对大语言模型(LLM)产品的成功至关重要。许多LLM产品之所以失败,根本原因在于未能创建健壮的评估系统。评估、调试和改进是LLM产品成功的关键,而良好的评估系统可以创造一个良性循环,加速产品的迭代和改进。案例研究中的Lucy就是一个典型的例子,它初期通过提示工程取得了进展,但后来遇到了性能瓶颈,需要建立系统的评估方法来突破瓶颈。评估的类型LLM产品的评估主要分为三个层次:单元测试、人工评估和模型评估、A/B测试。单元测试是通过编写一些断言语句,在开发过程中快速获得反馈。人工评估和模型评估是通过人工检查和训练评估模型来评估整个系统。A/B测试则用于确保AI产品能够驱动期望的用户行为或结果。除了评估整个系统,还需要对子组件如RAG进行单独评估。单元测试的步骤单元测试是LLM产品评估的基础,通常包括三个步骤:编写特定范围的测试、创建测试用例和定期执行测试并追踪结果。编写测试时要针对LLM的不同功能和场景,检验相应的断言。可以利用LLM自动生成测试用例,触发不同的场景。测试应当定期执行,利用CI基础设施可以很方便地实现自动化测试和结果跟踪。测试通过率并不一定要达到100%,而是要在错误容忍度和产品目标之间取得平衡。人工评估和模型评估人工评估和模型评估是更高层次的测试手段。首先要记录LLM系统的跟踪数据,包括用户的输入和系统的响应,为后续分析提供数据基础。在查看数据时,定制化的查看工具和良好的可视化非常重要。将人工评估结果与评估模型的预测对齐,可以极大提高评估的效率。随着评估模型性能的提升,可以渐进式地用自动评估来替代人工评估。微调和数据合成与管理

Google研究团队宣布AudioPaLM：一个能说能听的大型语言模型

Google研究团队宣布AudioPaLM：一个能说能听的大型语言模型除了文本生成外，还开发了像CLIP（对比性语言图像预训练）这样的模型，用于图像生成，使得可以根据图像的内容生成文本。为了在音频生成和理解方面取得进展，Google的研究团队推出了AudioPaLM，这是一个大型语言模型，可以处理语音理解和生成任务。AudioPaLM结合了两个现有模型的优势，即PaLM-2模型和AudioLM模型，以产生一个统一的多模态架构，能够处理和生成文本和语音。这使得AudioPaLM可以处理各种应用，从语音识别到语音转文字。虽然AudioLM在保持诸如说话者身份和语气信息方面表现出色，而以文本为基础的语言模型PaLM-2则专注于特定于文本的语言知识。通过结合这两个模型，AudioPaLM利用了PaLM-2的语言专业知识和AudioLM的附加语言信息保存能力，从而更全面地理解和生成文本和语音。AudioPaLM使用一个联合词汇表，可以使用有限数量的离散标记表示语音和文本。将这个联合词汇表与标记化的任务描述相结合，可以在各种声音和基于文本的任务上训练单个解码器模型。传统上需要单独模型来处理的语音识别、文本转语音合成和语音到语音翻译等任务现在可以统一到一个架构和训练过程中。经过评估，AudioPaLM在语音翻译方面的表现明显优于现有系统。它展示了对语言组合执行零样本语音到文本翻译的能力，也就是说，它可以准确地将从未遇到过的语言的语音翻译成文本，为更广泛的语言支持开辟了可能性。AudioPaLM还可以基于简短的口语提示在语言之间进行声音转换，并能捕捉并重现不同语言中的独特声音，实现语音转换和适应。团队提到的AudioPaLM主要贡献包括：AudioPaLM利用了文本预训练模型PaLM和PaLM-2的功能。在自动语音翻译和语音到语音翻译基准测试中取得了最先进的结果，并在自动语音识别基准测试中具有竞争力的表现。该模型通过语音转换来进行声音转换，超越了现有方法在语音质量和声音保留方面的表现。AudioPaLM通过使用未见过的语言组合进行自动语音翻译，展示了零样本功能。总而言之，AudioPaLM是一个统一的大型语言模型，通过利用基于文本的语言模型的能力和整合音频提示技术，可以同时处理语音和文本，成为LLM列表中强有力的补充。AudioPaLMHuggingFace页面：https://huggingface.co/papers/2306.12925...PC版：https://www.cnbeta.com.tw/articles/soft/1367209.htm手机版：https://m.cnbeta.com.tw/view/1367209.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人