相关推荐

Google的Med-Gemini医疗人工智能模型被证明表现不输人类医生

Google的Med-Gemini医疗人工智能模型被证明表现不输人类医生医生每天要治疗众多病人，他们的需求从简单到非常复杂。为了提供有效的医疗服务，他们必须熟悉每位患者的健康记录，了解最新的治疗程序和治疗方法。此外，建立在同理心、信任和沟通基础上的医患关系也至关重要。要想让人工智能接近真实世界中的医生，它必须能够做到所有这些。Google的Gemini模型是新一代多模态人工智能模型，这意味着它们可以处理来自不同模态的信息，包括文本、图像、视频和音频。这些模型擅长语言和对话，理解它们所训练的各种信息，以及所谓的"长语境推理"，即从大量数据（如数小时的视频或数十小时的音频）中进行推理。Gemini医学模型具有Gemini基础模型的所有优点，但对其进行了微调。研究人员测试了这些以药物为重点的调整，并将结果写入了论文中。这篇论文长达 58 页，内容丰富，我们选取了其中最令人印象深刻的部分。自我培训和网络搜索功能要做出诊断并制定治疗方案，医生需要将自己的医学知识与大量其他相关信息结合起来：病人的症状、病史、手术史和社会史、化验结果和其他检查结果，以及病人对先前治疗的反应。治疗方法是"流动的盛宴"，现有的治疗方法会不断更新，新的治疗方法也会不断推出。所有这些都会影响医生的临床推理。因此，Google在 Med-Gemini 中加入了网络搜索功能，以实现更高级的临床推理。与许多以医学为重点的大型语言模型（LLM）一样，Med-Gemini 也是在 MedQA 上进行训练的，MedQA 是美国医学执照考试（USMLE）的多选题，旨在测试不同场景下的医学知识和推理能力。Med-Gemini 如何使用自我培训和网络搜索工具不过，Google也为他们的模型开发了两个新的数据集。第一个是 MedQA-R（推理），它通过合成生成的推理解释（称为"思维链"，CoTs）对 MedQA 进行了扩展。第二种是 MedQA-RS（推理和搜索），它为模型提供使用网络搜索结果作为额外上下文的指令，以提高答案的准确性。如果一个医学问题的答案不确定，就会提示模型进行网络搜索，以获取更多信息来解决不确定问题。Med-Gemini 在 14 个医学基准上进行了测试，并在 10 个基准上建立了新的最先进（SoTA）性能，在可以进行比较的每个基准上都超过了 GPT-4 模型系列。在 MedQA（USMLE）基准测试中，Med-Gemini 利用其不确定性指导搜索策略达到了 91.1% 的准确率，比Google之前的医学 LLMMed-PaLM 2 高出 4.5%。在包括《新英格兰医学杂志》（NEJM）图像挑战（具有挑战性的临床病例图像，从 10 个病例中做出诊断）在内的 7 项多模态基准测试中，Med-Gemini 的表现优于 GPT-4，平均相对优势为 44.5%。研究人员说："虽然结果......很有希望，但还需要进一步开展大量研究。例如，我们还没有考虑将搜索结果限制在更具权威性的医学来源上，也没有考虑使用多模态搜索检索或对搜索结果的准确性和相关性以及引文的质量进行分析。此外，是否还能教会较小规模的法律硕士使用网络搜索还有待观察。我们将这些探索留待今后的工作中进行。"从冗长的电子病历中检索特定信息电子病历（EHR）可能很长，但医生需要了解其中包含的内容。更复杂的是，它们通常包含相似的文本（"糖尿病"与"糖尿病肾病"）、拼写错误、缩略词（"Rx"与"prescription"）和同义词（"脑血管意外"与"中风"），这些都会给人工智能带来挑战。为了测试Med-Gemini理解和推理长语境医疗信息的能力，研究人员使用一个大型公开数据库重症监护医疗信息市场（MIMIC-III）执行了一项所谓的"大海捞针任务"，该数据库包含重症监护患者的去标识化健康数据。该模型的目标是在电子病历（"大海"）中的大量临床记录中检索到与罕见而微妙的医疗状况、症状或程序（"针"）相关的内容。共收集了 200 个案例，每个案例都由 44 名病史较长的重症监护室患者的去标识化电子病历记录组成。他们必须具备以下条件：100 多份医学笔记，每个例子的长度从 20 万字到 70 万字不等在每个例子中，条件只被提及一次每个样本都有一个感兴趣的条件这项大海捞针的任务分为两个步骤。首先，Med-Gemini 必须从大量记录中检索所有与指定医疗问题相关的内容。其次，该模型必须评估所有提及内容的相关性，对其进行分类，并得出结论：患者是否有该问题的病史，同时为其决定提供清晰的推理。Med-Gemini 的长语境能力示例与 SoTA 方法相比，Med-Gemini 在"大海捞针"任务中表现出色。它的精确度为 0.77，而 SoTA 方法为 0.85，召回率也超过了 SoTA 方法：0.76 对 0.73。研究人员说："也许 Med-Gemini 最引人注目的方面是长语境处理能力，因为它们为医疗人工智能系统开辟了新的性能前沿和新颖的、以前不可行的应用可能性。这项'大海捞针'式的检索任务反映了临床医生在现实世界中面临的挑战，Med-Gemini-M 1.5 的性能表明，它有潜力通过从海量患者数据中高效提取和分析信息，显著降低认知负荷，增强临床医生的能力。"有关这些关键研究点的浅显易懂的讨论，以及Google和微软之间争论的最新情况，请观看《AI Explained》从 13:38 开始的视频。新的 OpenAI 模型即将诞生，人工智能的赌注又提高了（还有 Med Gemini、GPT 2 聊天机器人和 Scale AI）与 Med-Gemini 对话在一次实际应用测试中，Med-Gemini 收到了一位患者用户关于皮肤肿块瘙痒的询问。在要求提供图像后，模型提出了适当的后续问题，并正确诊断出了这种罕见的病变，同时建议用户下一步该怎么做。Med-Gemini 诊断对话在皮肤科的应用实例Med-Gemini 还被要求在医生等待放射科医生的正式报告期间，为其解读胸部 X 光片，并编写一份通俗易懂的英文版报告提供给病人。Med-Gemini 的放射诊断对话辅助系统研究人员说："Med-Gemini-M 1.5 的多模态对话功能很有前景，因为它们无需进行任何特定的医疗对话微调即可实现。这些功能可以实现人、临床医生和人工智能系统之间无缝、自然的互动。"不过，研究人员认为还需要进一步的工作。他们说："这种能力在帮助临床医生和患者等现实世界应用方面具有巨大潜力，但当然也会带来非常大的风险。在强调这一领域未来研究潜力的同时，我们并没有在这项工作中对临床对话的能力进行严格的基准测试，正如其他人之前在对话诊断人工智能的专门研究中所探索的那样。"未来愿景研究人员承认，要做的工作还有很多，但 Med-Gemini 模型的初步能力无疑是很有希望的。重要的是，他们计划在整个模型开发过程中纳入负责任的人工智能原则，包括隐私和公平。隐私方面的考虑尤其需要植根于现有的医疗保健政策和法规，以管理和保护患者信息。公平性是另一个可能需要关注的领域，因为医疗保健领域的人工智能系统有可能无意中反映或放大历史偏见和不公平，从而可能导致边缘化群体的不同模型性能和有害结果。但归根结底，Med-Gemini 被视为一种造福人类的工具。大型多模态语言模型为健康和医学带来了一个全新的时代。Gemini"和"医学Gemini"所展示的能力表明，在加速生物医学发现、协助医疗保健服务和体验的深度和广度方面，都有了重大飞跃。然而，在提高模型能力的同时，必须对这些系统的可靠性和安全性给予细致的关注。通过优先考虑这两个方面，我们可以负责任地展望未来，让人工智能系统的能力成为科学进步和医疗保健有意义且安全的加速器。该研究可通过预印本网站arXiv 获取。 ... PC版：手机版：

Meta人工智能主管杨立昆：大型语言模型不会达到人类智能水平

Meta人工智能主管杨立昆：大型语言模型不会达到人类智能水平 Meta 的人工智能主管表示，为 ChatGPT 等生成式人工智能产品提供动力的大型语言模型永远无法实现像人类一样的推理和计划能力，他专注于一种激进的替代方法，即在机器中创造“超级智能”。该公司首席人工智能科学家杨立昆表示，LLM“对逻辑的理解非常有限……不理解物理世界，没有持久的记忆，不能按照任何合理的定义进行推理，也不能进行层次化的规划”。杨立昆说，LLMs的这种进化是肤浅和有限的，只有当人类工程师介入并根据这些信息进行训练时，模型才会学习，而不是像人类那样自然地得出结论。“在大多数人看来，这当然是推理，但主要是利用从大量训练数据中积累的知识。(LLM)尽管有局限性，但非常有用。” （）

：为大型语言模型(LLM)设计的 React 库，旨在提高与LLM交互的用户体验

：大型语言模型层级剪枝工具，支持量化技术，通过配置文件定义剪枝任务，旨在提高模型效率和性能 | #工具

谷歌 DeepMind 利用大型语言模型解决了一个长期困扰人类的数学难题

谷歌 DeepMind 利用大型语言模型解决了一个长期困扰人类的数学难题谷歌 DeepMind 利用一大型语言模型成功破解了一项著名的未解数学难题。研究人员发表在《自然》杂志上的一篇中表示，这是首次使用大型语言模型发现长期科学难题的解决方案，产生了可验证且有价值的新信息，这些信息之前并不存在。“这不在训练数据中，甚至以前都不知道，”谷歌 DeepMind 研究副总裁 Pushmeet Kohli 说道。它结合了一个名为Codey的大型语言模型，这是Google的PaLM 2的一个版本，经过对计算机代码进行了精细调整，还与其他系统结合使用，拒绝不正确或荒谬的答案，并将正确的答案重新插入其中。经过数百万次建议和几十次总体过程的重复这花了几天的时间FunSearch能够提出代码，产生了一个正确且以前未知的解决方案，解决了cap set 问题，涉及找到某一类型集合的最大大小。

微软最近的研究集中在通过模仿学习来提高较小模型的能力，利用大型基础模型（LFMs）产生的输出。许多问题影响这些模型的质量，从来自

微软最近的研究集中在通过模仿学习来提高较小模型的能力，利用大型基础模型（LFMs）产生的输出。许多问题影响这些模型的质量，从来自浅LFM输出的有限模仿信号；小规模同质训练数据；最明显的是缺乏严格的评估，导致高估了小模型的能力，因为他们倾向于学习模仿风格，而不是LFM的推理过程。为了解决这些挑战，微软开发了 Orca，一个130亿美元的参数模型，可以学习模拟lfm的推理过程。Orca从GPT-4的丰富信号中学习，包括解释痕迹；一步一步的思维过程；以及其他复杂的指令，由ChatGPT的老师指导。为了促进这种渐进式学习，微软利用明智的抽样和选择来获取大规模和多样化的模仿数据。在复杂的零射击推理基准（BBH）中，Orca比传统的最先进的指令调优模型，如Vicuna-13B上超过了100%，在AGIEval上超过了42%。此外，Orca在BBH基准上与ChatGPT持平，并在SAT、LSAT、GRE和GMAT等专业和学术考试中表现出竞争力（与优化系统信息差距4分），都是在没有CoT的零射击设置中而落后于GPT-4。研究表明，从循序渐进的解释中学习，无论这些解释是由人类还是更先进的人工智能模型生成的，都是提高模型能力和技能的一个很有前途的方向。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人