OpenAI的模型在评估眼疾方面几乎与医生不相上下

OpenAI的模型在评估眼疾方面几乎与医生不相上下眼科一直是将人工智能应用于临床并解决其应用障碍的工作重点，例如模型通过虚构数据产生"幻觉"的倾向。"这项工作表明，这些大型语言模型在眼健康方面的知识和推理能力现在几乎与专家无异，"发表在《PLOS数字健康》杂志上的一篇论文的主要作者ArunThirunavukarasu说。他补充说："我们看到了回答相当复杂问题的能力。研究使用了87种不同的病人情况来测试GPT-4在非专业初级医生、见习眼科医师和专家眼科医师中的表现。论文称，该模型的表现优于初级医生，并取得了与许多专家相似的结果。研究人员说，这项研究之所以引人注目，是因为它将人工智能模型的能力与执业医生的能力进行了比较，而不是与检查结果进行比较。它还运用了生成式人工智能的广泛能力，而不是之前一些人工智能医学研究中测试的狭窄能力，如通过病人扫描诊断癌症风险。该模型在需要一阶记忆的问题和需要高阶推理的问题（如插值、解释和处理信息的能力）上表现同样出色。Thirunavukarasu在剑桥大学临床医学院学习期间开展了这项研究，他目前在牛津大学工作，他认为可以通过扩大数据集（包括管理算法、去身份化的病人笔记和教科书）对模型进行训练，从而进一步完善模型。这就要求在扩大信息来源的数量和性质的同时，确保信息保持良好的质量，在两者之间取得"棘手的平衡"。潜在的临床用途可能是对病人进行分流，或在专业医护人员有限的情况下使用。有证据表明，人工智能有助于诊断，例如能发现可能被医生遗漏的早期乳腺癌，因此在临床环境中部署人工智能的兴趣大增。与此同时，考虑到错误诊断可能对患者造成的伤害，研究人员也在努力解决如何控制严重风险的问题。伦敦大学学院人工医学智能教授皮尔斯-基恩（PearseKeane）说，这项最新研究"令人兴奋"，其利用人工智能为专家的表现设定基准的想法"超级有趣"。基恩也是伦敦莫菲尔德眼科医院的成员，他也认为，在将这些技术引入临床之前，还需要做更多的工作。他列举了自己去年研究中的一个例子：向一个大型语言模型询问有关眼部黄斑变性的问题，结果该模型在回答中给出了根本是"杜撰"出来的参考资料。"我们必须在对这项技术的兴奋和潜在的巨大利益之间取得平衡.....至少要有谨慎和怀疑。"他说。...PC版：https://www.cnbeta.com.tw/articles/soft/1427767.htm手机版：https://m.cnbeta.com.tw/view/1427767.htm

在Telegram中查看

相关推荐

研究：OpenAI模型在评估眼疾方面几乎与医生不相上下

研究：OpenAI模型在评估眼疾方面几乎与医生不相上下一项研究显示，OpenAI最新的人工智能模型在分析眼部状况方面几乎与专家医生不相上下。这项研究突显了该技术在医学领域的潜力。根据周三发表的一篇论文，GPT-4模型在评估眼部问题和建议治疗方面，超过或达到了除得分最高的专业医生之外所有人的得分。发表在《公共科学图书馆数字健康》杂志上的一篇论文的主要作者ArunThirunavukarasu说：“这项工作表明，这些大型语言模型在眼睛健康方面的知识和推理能力现在几乎与专家无法区分。”Thirunavukarasu在剑桥大学临床医学院学习期间进行了这项研究，他表示：“我们现在正在以一种更加开放的方式进行训练，并发现这些模型几乎具备了它们没有被明确训练的能力。”伦敦大学学院(UCL)人工医学智能教授皮尔斯•基恩表示，这项最新研究“令人兴奋”，其利用人工智能对专家的表现进行基准测试的想法“超级有趣”。同时也隶属于伦敦摩尔菲尔德眼科医院的基恩认为，在将这项技术应用于临床之前，还需要做更多的工作。——

国产眼科人工智能大模型在广州发布

国产眼科人工智能大模型在广州发布国产眼科人工智能大模型“ChatZOC”日前在广州发布，该大模型由中山大学中山眼科中心和华为技术有限公司共同研发，可实现综合处理复杂临床信息、模拟医患问答、辅助科研等功能，助力提升患者服务效率。据研发团队介绍，该大模型可以综合处理复杂临床信息，助力医患病情沟通，辅助医生诊疗；同时，可为患者提供全天候眼健康咨询服务，经研究团队测试，在相同人力时，ChatZOC辅助模式下的患者服务效率可提升75%。此外，该大模型还可应用于医学教学和科研。（新华财经）

百度发布文心一言4.0，宣称该模型在复杂度和通用能力方面与GPT-4不相上下

百度发布文心一言4.0，宣称该模型在复杂度和通用能力方面与GPT-4不相上下百度公司创始人李彦宏宣布，其公司的大型语言模型终于赶上了OpenAI先进的GPT-4，在中国开发可与美国匹敌的人工智能的竞赛中取得了领先地位。这位亿万富翁周二在北京登台演讲，对文心一言（Ernie）4.0进行了问答，旨在展示其即时提供答案和解决复杂谜题的能力。李彦宏在一个由钢铁厂改建而成的礼堂里对座无虚席的观众说，文心一言在复杂性和一般能力方面已经与OpenAI的开创性产品不相上下。著名的“文心一言”聊天机器人的用户数量现已突破4500万——这一里程碑仍落后于ChatGPT的约1.8亿用户数量，尽管ChatGPT早在几个月前就在美国推出了该聊天机器人。百度是中国搜索领域的领头羊，经常被称为本土的谷歌，它寄希望于人工智能来帮助自己超越阿里巴巴集团控股有限公司和腾讯控股有限公司等控制互联网其他领域的竞争对手。百度股价周二下跌约1.5%。李彦宏对听众说：“文心一言在任何方面都不逊色于GPT-4。”早在今年6月，百度就曾表示，早期版本的“文心一言”在综合能力上超过了OpenAI基于GPT-3.5开发的聊天机器人。百度还援引一家地方报纸的测试结果称，它在几项中文能力上超过了GPT-4。百度现在希望“文心一言机器人”能成为在线营销的核心业务，帮助百度挽回被抖音所有者字节跳动和腾讯运营的多功能应用夺走的用户。——

Google的Med-Gemini医疗人工智能模型被证明表现不输人类医生

Google的Med-Gemini医疗人工智能模型被证明表现不输人类医生医生每天要治疗众多病人，他们的需求从简单到非常复杂。为了提供有效的医疗服务，他们必须熟悉每位患者的健康记录，了解最新的治疗程序和治疗方法。此外，建立在同理心、信任和沟通基础上的医患关系也至关重要。要想让人工智能接近真实世界中的医生，它必须能够做到所有这些。Google的Gemini模型是新一代多模态人工智能模型，这意味着它们可以处理来自不同模态的信息，包括文本、图像、视频和音频。这些模型擅长语言和对话，理解它们所训练的各种信息，以及所谓的"长语境推理"，即从大量数据（如数小时的视频或数十小时的音频）中进行推理。Gemini医学模型具有Gemini基础模型的所有优点，但对其进行了微调。研究人员测试了这些以药物为重点的调整，并将结果写入了论文中。这篇论文长达58页，内容丰富，我们选取了其中最令人印象深刻的部分。自我培训和网络搜索功能要做出诊断并制定治疗方案，医生需要将自己的医学知识与大量其他相关信息结合起来：病人的症状、病史、手术史和社会史、化验结果和其他检查结果，以及病人对先前治疗的反应。治疗方法是"流动的盛宴"，现有的治疗方法会不断更新，新的治疗方法也会不断推出。所有这些都会影响医生的临床推理。因此，Google在Med-Gemini中加入了网络搜索功能，以实现更高级的临床推理。与许多以医学为重点的大型语言模型（LLM）一样，Med-Gemini也是在MedQA上进行训练的，MedQA是美国医学执照考试（USMLE）的多选题，旨在测试不同场景下的医学知识和推理能力。Med-Gemini如何使用自我培训和网络搜索工具不过，Google也为他们的模型开发了两个新的数据集。第一个是MedQA-R（推理），它通过合成生成的推理解释（称为"思维链"，CoTs）对MedQA进行了扩展。第二种是MedQA-RS（推理和搜索），它为模型提供使用网络搜索结果作为额外上下文的指令，以提高答案的准确性。如果一个医学问题的答案不确定，就会提示模型进行网络搜索，以获取更多信息来解决不确定问题。Med-Gemini在14个医学基准上进行了测试，并在10个基准上建立了新的最先进（SoTA）性能，在可以进行比较的每个基准上都超过了GPT-4模型系列。在MedQA（USMLE）基准测试中，Med-Gemini利用其不确定性指导搜索策略达到了91.1%的准确率，比Google之前的医学LLMMed-PaLM2高出4.5%。在包括《新英格兰医学杂志》（NEJM）图像挑战（具有挑战性的临床病例图像，从10个病例中做出诊断）在内的7项多模态基准测试中，Med-Gemini的表现优于GPT-4，平均相对优势为44.5%。研究人员说："虽然结果......很有希望，但还需要进一步开展大量研究。例如，我们还没有考虑将搜索结果限制在更具权威性的医学来源上，也没有考虑使用多模态搜索检索或对搜索结果的准确性和相关性以及引文的质量进行分析。此外，是否还能教会较小规模的法律硕士使用网络搜索还有待观察。我们将这些探索留待今后的工作中进行。"从冗长的电子病历中检索特定信息电子病历（EHR）可能很长，但医生需要了解其中包含的内容。更复杂的是，它们通常包含相似的文本（"糖尿病"与"糖尿病肾病"）、拼写错误、缩略词（"Rx"与"prescription"）和同义词（"脑血管意外"与"中风"），这些都会给人工智能带来挑战。为了测试Med-Gemini理解和推理长语境医疗信息的能力，研究人员使用一个大型公开数据库--重症监护医疗信息市场（MIMIC-III）--执行了一项所谓的"大海捞针任务"，该数据库包含重症监护患者的去标识化健康数据。该模型的目标是在电子病历（"大海"）中的大量临床记录中检索到与罕见而微妙的医疗状况、症状或程序（"针"）相关的内容。共收集了200个案例，每个案例都由44名病史较长的重症监护室患者的去标识化电子病历记录组成。他们必须具备以下条件：100多份医学笔记，每个例子的长度从20万字到70万字不等在每个例子中，条件只被提及一次每个样本都有一个感兴趣的条件这项大海捞针的任务分为两个步骤。首先，Med-Gemini必须从大量记录中检索所有与指定医疗问题相关的内容。其次，该模型必须评估所有提及内容的相关性，对其进行分类，并得出结论：患者是否有该问题的病史，同时为其决定提供清晰的推理。Med-Gemini的长语境能力示例与SoTA方法相比，Med-Gemini在"大海捞针"任务中表现出色。它的精确度为0.77，而SoTA方法为0.85，召回率也超过了SoTA方法：0.76对0.73。研究人员说："也许Med-Gemini最引人注目的方面是长语境处理能力，因为它们为医疗人工智能系统开辟了新的性能前沿和新颖的、以前不可行的应用可能性。这项'大海捞针'式的检索任务反映了临床医生在现实世界中面临的挑战，Med-Gemini-M1.5的性能表明，它有潜力通过从海量患者数据中高效提取和分析信息，显著降低认知负荷，增强临床医生的能力。"有关这些关键研究点的浅显易懂的讨论，以及Google和微软之间争论的最新情况，请观看《AIExplained》从13:38开始的视频。新的OpenAI模型即将诞生，人工智能的赌注又提高了（还有MedGemini、GPT2聊天机器人和ScaleAI）与Med-Gemini对话在一次实际应用测试中，Med-Gemini收到了一位患者用户关于皮肤肿块瘙痒的询问。在要求提供图像后，模型提出了适当的后续问题，并正确诊断出了这种罕见的病变，同时建议用户下一步该怎么做。Med-Gemini诊断对话在皮肤科的应用实例Med-Gemini还被要求在医生等待放射科医生的正式报告期间，为其解读胸部X光片，并编写一份通俗易懂的英文版报告提供给病人。Med-Gemini的放射诊断对话辅助系统研究人员说："Med-Gemini-M1.5的多模态对话功能很有前景，因为它们无需进行任何特定的医疗对话微调即可实现。这些功能可以实现人、临床医生和人工智能系统之间无缝、自然的互动。"不过，研究人员认为还需要进一步的工作。他们说："这种能力在帮助临床医生和患者等现实世界应用方面具有巨大潜力，但当然也会带来非常大的风险。在强调这一领域未来研究潜力的同时，我们并没有在这项工作中对临床对话的能力进行严格的基准测试，正如其他人之前在对话诊断人工智能的专门研究中所探索的那样。"未来愿景研究人员承认，要做的工作还有很多，但Med-Gemini模型的初步能力无疑是很有希望的。重要的是，他们计划在整个模型开发过程中纳入负责任的人工智能原则，包括隐私和公平。隐私方面的考虑尤其需要植根于现有的医疗保健政策和法规，以管理和保护患者信息。公平性是另一个可能需要关注的领域，因为医疗保健领域的人工智能系统有可能无意中反映或放大历史偏见和不公平，从而可能导致边缘化群体的不同模型性能和有害结果。但归根结底，Med-Gemini被视为一种造福人类的工具。大型多模态语言模型为健康和医学带来了一个全新的时代。Gemini"和"医学Gemini"所展示的能力表明，在加速生物医学发现、协助医疗保健服务和体验的深度和广度方面，都有了重大飞跃。然而，在提高模型能力的同时，必须对这些系统的可靠性和安全性给予细致的关注。通过优先考虑这两个方面，我们可以负责任地展望未来，让人工智能系统的能力成为科学进步和医疗保健有意义且安全的加速器。该研究可通过预印本网站arXiv获取。...PC版：https://www.cnbeta.com.tw/articles/soft/1429826.htm手机版：https://m.cnbeta.com.tw/view/1429826.htm

OpenAI与Stack Overflow达成合作预计可以大幅提高AI模型编程能力

OpenAI与StackOverflow达成合作预计可以大幅提高AI模型编程能力今天OpenAI宣布与StackOverflow达成合作伙伴关系，OpenAI将利用该网站的技术类数据改进人工智能，预计此次双方的合作将可以大幅度提高GPT相关模型在编程开发方面的能力。此次合作分成两个部分：第一个是StackOverflow将在内部使用OpenAIGPT人工智能模型构建新产品；第二个是OpenAI将使用StackOverflowAPI获取数据，这些数据将被用于提高GPT模型的能力。另外StackOverflow也不只是和OpenAI合作，在目前的人工智能热潮下数据是关键，所以StackOverflow还向谷歌提供数据，帮助谷歌提高GoogleGemini系列模型的编程开发能力。来源，频道：@kejiqu群组：@kejiquchat

OpenAI 和 Meta 准备推出具有“推理”能力的新人工智能模型

OpenAI和Meta准备推出具有“推理”能力的新人工智能模型OpenAI和Meta即将发布新的人工智能模型，他们表示这些模型将具备推理和规划的能力，这是在机器中实现超人认知的关键步骤。本周，OpenAI和Meta的高管表示，他们正准备推出其大型语言模型的下一个版本。Meta表示将在未来几周内开始推出Llama3，而微软支持的OpenAI表示，其下一个模型GPT-5将“很快”推出。Meta人工智能研究副总裁乔尔•皮诺表示：“我们正在努力研究如何让这些模型不仅能说话，还能真正推理、规划……拥有记忆”。OpenAI首席运营官布拉德•莱特卡普在接受记者采访时表示，下一代GPT将在解决推理等“难题”方面取得进展。他说：“我们将开始看到人工智能能够以更复杂的方式完成更复杂的任务。”“我认为，我们才刚刚开始触及这些模型推理能力的表面。”——（）

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人