热度下来了,是好事,语言模型的局限还是很多的,也别过度想象。

None

相关推荐

封面图片

LeCun 的 LLMs 退烧贴,把语言模型的局限写的很清楚

LeCun的LLMs退烧贴,把语言模型的局限写的很清楚https://twitter.com/ylecun/status/1625118108082995203?ref_src=twsrc%5Etfw%7Ctwcamp%5Etweetembed%7Ctwterm%5E1625118108082995203%7Ctwgr%5Efd5a6f1edcf607a3bbc5c8bdcdd6cc3d8b13309e%7Ctwcon%5Es1_&ref_url=https%3A%2F%2Fwww.notion.so%2Forangeblog%2FChatGPT-5fe9daeeb2a04bebbdf02b3d9c282102

封面图片

研究显示AI大语言模型在处理医疗编码方面有着明显局限性

研究显示AI大语言模型在处理医疗编码方面有着明显局限性这项研究从西奈山医疗系统12个月的常规护理中提取了27000多个独特的诊断和手术代码,同时排除了可识别的患者数据。通过对每个代码的描述,研究人员促使OpenAI、Google和Meta的模型输出最准确的医疗代码。研究人员将生成的代码与原始代码进行了比较,并分析了错误的模式。研究人员报告说,所研究的所有大型语言模型,包括GPT-4、GPT-3.5、Gemini-pro和Llama-2-70b在再现原始医疗代码方面都显示出有限的准确性(低于50%),这突出表明这些模型在医疗编码的实用性方面存在很大差距。GPT-4的性能最好,ICD-9-CM(45.9%)、ICD-10-CM(33.9%)和CPT代码(49.8%)的精确匹配率最高。GPT-4还生成了最高比例的错误代码,但仍然表达了正确的含义。例如,当给出ICD-9-CM中"结节性前列腺,无尿路梗阻"的描述时,GPT-4生成了"结节性前列腺"的代码,展示了其对医学术语相对细微的理解。然而,即使考虑到这些技术上正确的代码,仍然存在大量令人无法接受的错误。其次是GPT-3.5模型,该模型的模糊倾向最大。与准确的代码相比,它错误生成的代码中准确但较为笼统的代码比例最高。在这种情况下,当提供ICD-9-CM描述"未指定的麻醉不良反应"时,GPT-3.5生成的代码为"其他未在别处分类的特定不良反应"。研究报告的通讯作者、伊坎山西奈医院数据驱动与数字医学(D3M)和医学(消化内科)助理教授、医学博士、理学硕士阿里-索罗什(AliSoroush)说:"我们的研究结果突出表明,在医疗编码等敏感业务领域部署人工智能技术之前,亟需进行严格的评估和改进。虽然人工智能拥有巨大的潜力,但必须谨慎对待并不断开发,以确保其在医疗保健领域的可靠性和有效性。"研究人员说,这些模型在医疗保健行业的一个潜在应用是根据临床文本自动分配医疗代码,用于报销和研究目的。"以前的研究表明,较新的大型语言模型在处理数字任务时非常吃力。然而,这些模型从临床文本中分配医疗代码的准确程度尚未在不同的模型中得到深入研究,"共同第一作者、D3M的生成式人工智能研究项目主任、医学博士EyalKlang说。"因此,我们的目的是评估这些模型能否有效地完成将医疗代码与其相应的官方文本描述相匹配的基本任务。"研究报告的作者提出,将LLM与专家知识相结合可以实现医疗代码提取的自动化,从而有可能提高账单的准确性并降低医疗保健的管理成本。"这项研究揭示了人工智能在医疗保健领域的现有能力和挑战,强调了在广泛采用之前进行仔细考虑和进一步完善的必要性,"共同第一作者、西奈山伊坎大学医学教授、查尔斯-布朗夫曼个性化医学研究所所长兼D3M系统主管艾琳-费什伯格博士(IreneandDr.ArthurM.Fishberg)医学博士、医学博士吉里什-纳德卡尔尼(GirishNadkarni)说。研究人员提醒说,这项研究的人工任务可能并不能完全代表真实世界的情况,在这种情况下,LLM的表现可能会更糟。下一步,研究团队计划开发量身定制的LLM工具,用于准确提取医疗数据和分配账单代码,以提高医疗运营的质量和效率。编译来源:ScitechDaily...PC版:https://www.cnbeta.com.tw/articles/soft/1428862.htm手机版:https://m.cnbeta.com.tw/view/1428862.htm

封面图片

归纳了当前视觉语言模型的主要方法,即对比学习、掩码、生成式和利用预训练模型,阐述了各自的工作机制、优势和局限,为视觉语言模型研究

封面图片

微软发布Copilot智能体 还带来了本机小语言模型

微软发布Copilot智能体还带来了本机小语言模型此外,微软还针对Copilot+PC推出了本机小语言模型Phi-Silica。微软宣布,从6月份开始上市销售的所有Copilot+PC都将嵌入Phi-Silica。这是一款微软专门为人工智能个人电脑所搭载神经处理单元(NPU)打造的模型,是公司所有模型中规模最小的,有33亿个参数。微软宣称,Copilot智能体并不会袖手旁观,等待命令,而是可以主动执行诸如监控电子邮件收件箱、自动化手动数据录入等任务。这代表了行业中所称的AI智能体在行为上的重大变革,也就是使聊天机器人能够独立智能地执行复杂任务。这是业界通常所说智能主体方面的一个重大变化,也就是让聊天机器人能自动执行一系列复杂任务。微软商业应用和平台副总裁查尔斯·拉曼纳(CharlesLamanna)在接受采访时解释:“我们很快意识到,仅限于用Copilot进行对话,极大地限制了它目前的功能。”“与其让Copilot等着别人和它聊天,不如让它更主动,让它能够在后台自动执行任务。”微软今天向极少数早期接入测试者展示了这一新能力,并计划在今年晚些时候在CopilotStudio公开进行预览。企业将能够创建能够处理IT支持、员工入职等多种任务的Copilot智能体。“Copilot正从与你并肩作战的助手,演变为为你工作的助手,”微软在一篇博客中说。这些Copilot智能体将由特定事件触发,并将结合企业自身的数据进行操作。以下是微软以新员工入职举例说明Copilot如何工作:想象你是一名新员工。一个积极主动的Copilot会向你打招呼,利用HR数据解答你的问题,把你介绍给同事,为你提供培训信息,帮助你填写表格,安排你第一周的会议。这样,HR及其他员工便可专注于他们的常规任务,无需再被行政管理工作所困扰。这种自动化可能会引发关于失业以及AI未来走向的问题和恐惧。拉曼纳认为,Copilot智能体可以去除工作中重复且单调的任务,如数据输入,而非完全替代工作。“工作和岗位是由许多不同而又多样的任务组成的。如果某人不断重复同一工作,那么这种工作很可能已经被现有技术自动化了。”拉曼纳说,“我们认为,随着Copilot和CopilotStudio的使用,一些任务将被完全自动化……但好消息是,大多数被自动化的任务都是没人真正想做的。”关于小型语言模型Phi-Silica,微软表示这款模型的首字延迟是每秒650个token,功耗大约为1.5瓦特。这意味着它不会大量占用系统资源,从而释放PC的CPU和GPU去处理其他计算任务。此外,Phi-Silica在生成Token时会重用NPU的KV缓存,并在CPU上运行,每秒能产生约27个Token。微软发言人表示,Phi-Silica的独特之处在于这是Windows首个本地部署的语言模型。它专为NPU优化,能够为设备带来极速的本地推理处理。这是一个关键时刻,标志着先进的AI技术将直接应用于Windows平台,支持第三方开发者创建卓越的第一方和第三方体验。这些体验将于今年秋季推向终端用户,从而提升Windows生态系统内的生产力和可访问性。Phi-Silica是微软Phi-3系列模型的第五款产品,其他四款产品是拥有38亿个参数的Phi-3mini、70亿个参数的Phi-3small、140亿个参数的Phi-3medium和42亿个参数的Phi-3vision。(辰辰)...PC版:https://www.cnbeta.com.tw/articles/soft/1431851.htm手机版:https://m.cnbeta.com.tw/view/1431851.htm

封面图片

确实扮演了,但到底说法风格还是那个语言模型味儿

封面图片

首个种业大语言模型 “丰登” 来了 相关领域能力超 GPT-4

首个种业大语言模型“丰登”来了相关领域能力超GPT-4据崖州湾国家实验室4月28日消息,崖州湾国家实验室精准设计与智造团队联合中国农业大学、上海人工智能实验室共同发布首个种业大语言模型“丰登”。据介绍,该模型在种业方面具有四大核心能力:整合分散的知识资源、跨领域知识融合、提高访问效率、知识共享与传播。据悉,在具体测试中,“丰登”在最佳答案个数和综合分数上的表现均超出预期,且在多个评估维度上超越了语言模型国际领先水平代表OpenAIGPT-4。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人