Hugging Face发布生成式AI健康任务测试基准

Hugging Face发布生成式AI健康任务测试基准 人工智能初创公司 Hugging Face 在最新发布的名为 Open Medical-LLM 的基准测试中提出了一种解决方案。Open Medical-LLM 是与非营利组织开放生命科学人工智能(Open Life Science AI)和爱丁堡大学自然语言处理小组的研究人员合作创建的,旨在对生成式人工智能模型在一系列医疗相关任务中的性能进行标准化评估。Open Medical-LLM 本身并不是一个全新的基准,而是将现有的测试集(MedQA、PubMedQA、MedMCQA 等)拼接在一起,旨在探究医学常识和相关领域(如解剖学、药理学、遗传学和临床实践)的模型。该基准包含要求医学推理和理解的选择题和开放式问题,借鉴了美国和印度医学执照考试和大学生物试题库等材料。Hugging Face在一篇博文中写道:"[开放医学-LLM]使研究人员和从业人员能够识别不同方法的优缺点,推动该领域的进一步发展,并最终促进更好的患者护理和治疗效果。"Hugging Face 将该基准定位为对医疗领域生成式人工智能模型的"稳健评估"。但社交媒体上的一些医学专家告诫说,不要对 Open Medical-LLM 抱有过高期望,以免导致不明智的部署。阿尔伯塔大学神经病学住院医生利亚姆-麦考伊(Liam McCoy)在"X"上指出,医学答疑的"人为环境"与实际临床实践之间的差距可能相当大。博文的共同作者、"Hugging Face"研究科学家 Clémentine Fourrier 对此表示赞同。"这些排行榜只应作为针对特定用例探索哪种[生成式人工智能模型]的第一近似值,但随后始终需要进行更深入的测试阶段,以检验模型在真实条件下的局限性和相关性,"Fourrier在 X 上回答说,"医疗[模型]绝对不应该由患者自行使用,而应该经过培训,成为医学博士的辅助工具。"这不禁让人想起Google在泰国尝试将糖尿病视网膜病变的人工智能筛查工具引入医疗系统时的经历。Google创建了一个深度学习系统,可以扫描眼睛图像,寻找视网膜病变的证据,视网膜病变是导致视力丧失的主要原因。但是,尽管理论上具有很高的准确性,该工具在实际测试中被证明并不实用,结果不一致,与实际操作普遍不协调,令患者和护士都感到沮丧。美国食品和药物管理局迄今已批准了 139 种与人工智能相关的医疗设备,其中没有一种使用了生成式人工智能,这很能说明问题。要测试生成式人工智能工具在实验室中的表现如何转化到医院和门诊中,或许更重要的是测试其结果如何随时间变化,这异常困难。这并不是说 Open Medical-LLM 没有用处或信息量不大。结果排行榜可以提醒人们,模型对基本健康问题的回答有多么糟糕。但是,Open Medical-LLM 以及其他任何基准都无法替代经过深思熟虑的真实世界测试。 ... PC版: 手机版:

相关推荐

封面图片

Hugging Face 推出开源版 GPTs 免费定制人工智能助手

Hugging Face 推出开源版 GPTs 免费定制人工智能助手 开源社区平台 Hugging Face 日前推出开源版 GPTs,不但允许用户定制人工智能助手,而且费用全免。Hugging Face 技术总监兼 LLM 负责人菲利普·施密德表示,开源版 GPTs 名为“Hugging Chat Assistants”,用户只需点击2下,就能定制个人的人工智能助手,用法与 OpenAI 的 GPTs 类似。

封面图片

#DeepSeek1.28 DeepSeek发布新款开源多模态AI模型Janus-Pro

#DeepSeek 1.28 DeepSeek发布新款开源多模态AI模型Janus-Pro 人工智能社区Hugging Face显示,DeepSeek刚刚发布了开源多模态人工智能(AI)模型Janus-Pro。 它具有多模态功能(可生成图像),在 GenEval 和 DPG-Bench 基准测试中击败了 OpenAI 的 DALL-E 3 和 Stable Diffusion。

封面图片

谷歌与 Hugging Face 合作,帮助开发人员训练 AI 模型

谷歌与 Hugging Face 合作,帮助开发人员训练 AI 模型 谷歌云与 AI 模型托管平台 Hugging Face 建立了新的合作伙伴关系,让开发人员无需支付谷歌云订阅费用即可构建、训练和部署 AI 模型。现在,使用 Hugging Face 平台的外部开发人员将能够 “经济高效” 地访问谷歌的张量处理单元 (TPU) 和 GPU 超级计算机,其中包括数千台 Nvidia 的热门且出口受限的 H100。谷歌表示,Hugging Face 用户可以在 “2024 年上半年” 开始使用人工智能应用构建平台 Vertex AI 和 Kubernetes 引擎,帮助训练和微调模型。 一一

封面图片

开源 AI 公司 Hugging Face 确认在中国无法访问该平台

开源 AI 公司 Hugging Face 确认在中国无法访问该平台 AI 初创公司 Hugging Face 告诉 Semafor,当中国封锁了该平台的访问权限后,该公司已经知道在中国存在“令人遗憾的可访问性问题”。该平台托管着超过 365,000 个开源人工智能模型。 Hugging Face 的发言人在周五的一封电子邮件中表示:“中国的人工智能社区非常出色,我们希望他们能更好地访问 HF,但我们目前对于政府的规定无能为力。” 目前尚不清楚 Hugging Face 这家价值 45 亿美元的初创公司何时首次受到了中国的审查。早在今年五月起,中国用户就在该公司的论坛上抱怨连接问题。时事通讯 ChinaTalk 周三报道称,至少从 9 月 12 日起,Hugging Face 在中国就完全无法使用。

封面图片

人工智能在几乎所有性能基准测试中都超过了人类

人工智能在几乎所有性能基准测试中都超过了人类 与前几期相比,本期内容更丰富,反映了人工智能的快速发展及其在我们日常生活中日益增长的重要性。从哪些行业使用人工智能最多,到哪个国家最担心人工智能会导致失业,报告都进行了研究。但报告中最突出的一点是人工智能在与人类竞争时的表现。对于没有关注人工智能的人来说,人工智能已经在许多重要的基准测试中击败了我们。2015 年,它在图像分类方面超过了我们,然后是基本阅读理解(2017 年)、视觉推理(2020 年)和自然语言推理(2021 年)。人工智能变得如此聪明,速度如此之快,以至于在此之前使用的许多基准现在都已过时。事实上,该领域的研究人员正在争分夺秒地开发新的、更具挑战性的基准。简单地说,人工智能通过测试的能力越来越强,以至于我们现在需要新的测试不是为了衡量能力,而是为了突出人类和人工智能仍有差异的领域,找到我们仍有优势的地方。值得注意的是,下面的结果反映的是使用这些旧的、可能已经过时的基准进行的测试。但总体趋势仍然非常明显:人工智能已经超越了人类的许多性能基准看看这些轨迹,尤其是最近的测试是如何用一条接近垂直的线来表示的,需要知道的是这些机器还只是蹒跚学步的婴儿。新的人工智能指数报告指出,到2023年,人工智能在高级数学问题解决和视觉常识推理等复杂的认知任务上仍将举步维艰。不过,这里的"挣扎"可能会引起误解;这当然并不意味着人工智能做得很差。MATH 是一个包含 12500 个具有挑战性的竞赛级数学问题的数据集,自推出以来的两年中,其性能得到了显著提高。2021 年,人工智能系统只能解决 6.9% 的问题。相比之下,在 2023 年,基于 GPT-4 的模型解决了 84.3% 的问题。人类的基线是 90%。我们这里说的不是普通人;我们说的是能解决这样的测试题的人:向人工智能提出的数学问题示例这就是 2024 年高等数学的发展状况,我们仍然处于人工智能时代的黎明期。然后是视觉常识推理(VCR)。除了简单的物体识别外,VCR 还能评估人工智能如何在视觉环境中利用常识性知识进行预测。例如,当看到桌子上有一只猫的图像时,具有 VCR 的人工智能应该预测猫可能会从桌子上跳下来,或者根据猫的重量,预测桌子足够结实,可以容纳猫。报告发现,在 2022 年至 2023 年期间,VCR 增加了 7.93%,达到 81.60,而人类的基线是 85。用于测试人工智能视觉常识推理的示例问题把思绪拉回到五年前。想象一下,即使你想给电脑看一张图片,并期望它能"理解"上下文,从而回答这个问题。如今,人工智能可以生成许多行业的书面内容。但是,尽管取得了巨大进步,大型语言模型(LLM)仍然容易产生'幻觉'。"幻觉"是OpenAI等公司推崇的一个非常柔和的术语,大致意思是"将虚假或误导性信息作为事实呈现"。去年,人工智能的"幻觉"倾向让纽约律师史蒂文-施瓦茨(Steven Schwartz)尴尬不已,他使用 ChatGPT 进行法律研究,却没有对结果进行事实核查。审理此案的法官很快就发现了人工智能在提交的文件中捏造的法律案件,并对施瓦茨的粗心大意处以 5000 美元(7750 澳元)的罚款。他的故事成为了全球新闻。HaluEval被用作幻觉的基准。测试表明,对许多当地语言学习者来说,幻觉仍然是一个重要问题。真实性是生成式人工智能的另一个难点。在新的人工智能指数报告中,TruthfulQA被用作测试法律硕士真实性的基准。它的 817 个问题(涉及健康、法律、金融和政治等主题)旨在挑战我们人类常犯的错误观念。2024 年初发布的 GPT-4 在基准测试中取得了 0.59 的最高分,比 2021 年测试的基于 GPT-2 的模型高出近三倍。这样的进步表明,在给出真实答案方面,LLM 的性能正在逐步提高。人工智能生成的图像如何?要了解文本到图像生成的指数级改进,请查看 Midjourney 自 2022 年以来在绘制《哈利-波特》方面所做的努力:渐进式版本的 Midjourney 如何改进文本到图像的生成这相当于人工智能 22 个月的进步。你认为人类艺术家需要多长时间才能达到类似的水平?利用文本到图像模型整体评估(HEIM),对 LLM 的文本到图像生成能力进行了基准测试,测试涉及对图像的"实际部署"非常重要的 12 个关键方面。人类对生成的图像进行了评估,发现没有一个模型在所有标准中都表现出色。在图像与文本的对齐度或图像与输入文本的匹配度方面,OpenAI 的DALL-E 2得分最高。基于Stable Diffusion的梦幻般逼真模型在质量(照片的逼真程度)、美学(视觉吸引力)和原创性方面排名最高。明年的报告会更精彩您会注意到,这份人工智能指数报告的截止时间是 2023 年年底,这一年是人工智能加速发展的动荡之年,也是人工智能发展的地狱之年。事实上,唯一比 2023 年更疯狂的年份是 2024 年,在这一年里,我们看到了Suno、Sora、Google Genie、Claude 3、Channel 1 和Devin 等重大发展成果的发布。这些产品和其他一些产品都有可能彻底改变整个行业。而 GPT-5 这个神秘的幽灵正笼罩着它们,它有可能成为一个广泛而无所不包的模式,从而吞噬所有其他模式。人工智能不会消失,这是肯定的。从本报告中可以看出,整个 2023 年的技术发展速度非常快,这表明人工智能只会不断发展,不断缩小人类与技术之间的差距。我们知道这有很多东西需要消化,但还有更多。报告还探讨了人工智能发展的弊端,以及它如何影响全球公众对其安全性、可信度和道德的看法。敬请期待本系列报道的第二部分!访问斯坦福大学相关页面了解更多: ... PC版: 手机版:

封面图片

Hugging Face 和 ServiceNow 发布免费代码生成模型 StarCoder

Hugging Face 和 ServiceNow 发布免费代码生成模型 StarCoder AI 创业公司 Hugging Face 和 ServiceNow 发布了免费的代码生成模型 。类似 DeepMind 的AlphaCode、亚马逊的 CodeWhisperer 和 GitHub 的 Copilot(基于 OpenAI 的 Codex),StarCoder 使用 Apache License 2.0 许可证,允许任何人免费使用,但严格意义上不是开源模型,它禁止用户使用该模型生成或传播恶意代码。StarCoder 使用了开源代码数据集 The Stack 训练,有 150 亿参数。其数据集包括了逾 80 种不同编程语言和来自 github issues 和 commits 的文本。#AI 来源 , 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人