消灭“幻觉”:Google全新ASPIRE方法让LLM给自己打分 效果碾压10x体量模型

消灭“幻觉”:Google全新ASPIRE方法让LLM给自己打分 效果碾压10x体量模型 大模型的“幻觉”问题马上要有解了?威斯康星麦迪逊大学和Google的研究人员最近开发了一个名为ASPIRE的系统,可以让大模型对自己的输出给出评分。如果用户看到模型的生成的结果评分不高,就能意识到这个回复可能是幻觉。如果系统可以进一步筛选评分的结果进行输出,比如如果评分过低,大模型就可能生成“我没法回答这个问”,从而有望最大限度的改善幻觉问题。ASPIRE能让LLM输出答案以及答案的置信度得分。研究人员的实验结果表明,ASPIRE在各种QA数据集(例如 CoQA 基准)上显著优于传统的选择性预测方法。让LLM不仅要回答问题,还要评估这些答案 。在选择性预测的基准测试上,研究人员通过ASPIRE系统取得了超过10倍规模的模型的成绩。就像让学生在课本后面验证他们自己的答案,虽然听起来有点不靠谱,但是细细一想,每个人在做出一道题目之后,确实会对答案的满意程度会有一个评分。这就是ASPIRE的本质,它涉及三个阶段:(1) 针对特定任务的调优,(2) 答案采样,(3) 自我评估学习。在研究人员看来,ASPIRE不仅仅是另一个框架,它代表着一个全面提升LLM可靠性,降低幻觉的美好未来。如果LLM可以成为决策过程中值得信赖的合作伙伴。只要通过不断优化选择性预测的能力,人类距离充分发挥大模型的潜力就又近了一步。研究人员希望能凭借ASPIRE,开启下一代LLM的进化,从而能创建更可靠和更具有自我意识的人工智能。ASPIRE 的机制针对特定任务的微调答案采样自评估学习结果当深入研究固定模型预测的选择分数计算时,ASPIRE获得了比所有数据集的基线方法更高的AUROC分数(随机选择的正确输出序列比随机选择的不正确输出序列具有更高选择分数的概率)。例如,在CoQA基准上,与基线相比,ASPIRE将AUROC从51.3%提高到80.3%。TriviaQA数据集评估中出现了一个有趣的模式。虽然预训练的OPT-30B模型表现出更高的基线精度,但当应用传统的自我评估方法(Self-eval和P(True))时,其选择性预测的性能并没有显著提高。相比之下,小得多的OPT-2.7B模型在使用ASPIRE进行增强后,在这方面表现优于其他模型。这种差异体现了一个重要的问题:利用传统自我评估技术的较大LLM在选择性预测方面可能不如较小的ASPIRE增强模型有效。研究人员与ASPIRE的实验之旅强调了LLM格局的关键转变:语言模型的容量并不是其性能的全部和最终目的。相反,可以通过策略调整来大幅提高模型的有效性,即使在较小的模型中也可以进行更精确、更自信的预测。因此,ASPIRE证明了LLM的潜力,它可以明智地确定自己答案的确定性,并在选择性预测任务中显著地超越地超越其他10倍体量的模型。 ... PC版: 手机版:

相关推荐

封面图片

DeepMind为人工智能聊天机器人开发了"事实核查器"以治愈幻觉

DeepMind为人工智能聊天机器人开发了"事实核查器"以治愈幻觉 在使用生成式人工智能创建图片或视频的工具中,这就不是一个问题了。最后,最近才从 OpenAI 离职的知名专家安德烈-卡尔帕西(Andrej Karpathy)竟然说,产生幻觉的现象是生成式人工智能的底层技术大型语言模型(LLM)的最大特点。但是,在以文本为重点、基于 LLM 的聊天机器人中,用户希望所提供的信息与事实相符,因此幻觉是绝对不允许出现的。防止人工智能产生幻觉是一项技术挑战,而且并非易事。不过,据Marktechpost报道,Google DeepMind 和斯坦福大学似乎找到了某种变通办法。研究人员提出了一种基于 LLM 的系统"搜索增强事实性评估器"(Search-Augmented Factuality Evaluator,简称 SAFE),它可以对人工智能聊天机器人生成的长格式回复进行事实检查。他们的研究成果连同所有实验代码和数据集已作为预印本发表在 arXiv 上。系统通过四个步骤对答案进行分析、处理和评估,以验证其准确性和真实性。首先,SAFE 将答案分割成单个事实,对其进行修改,并与Google搜索结果进行比较。系统还会检查各个事实与原始问题的相关性。为了评估 SAFE 的性能,研究人员创建了一个包含约 16,000 个事实的数据集 LongFact。然后,他们在四个不同系列(Claude、Gemini、GPT、PaLM-2)的 13 个 LLM 中测试了该系统。在 72% 的情况下,SAFE 提供了与人类注释者相同的结果。在存在分歧的情况下,SAFE 的正确率为 76%。此外,研究人员还声称,使用 SAFE 的成本比人工注释员或事实检查员低 20 倍,因此提供了一个经济可行的解决方案,而且可以大规模应用。 ... PC版: 手机版:

封面图片

GPT-4不是世界模型 ACL力证LLM永远无法模拟世界

GPT-4不是世界模型 ACL力证LLM永远无法模拟世界 最近,亚利桑那大学、微软、霍普金斯大学等机构联合发布了一篇论文,从实证的角度得出了否定的结论。最新研究已被ACL 2024顶会接收。论文地址:“没有世界模型,就没有规划能力”。虽然如此,只凭一篇论文又怎么能平息LLM界的重大分歧?支持语言模型的网友很快就在评论区下面反驳LeCun网友:目前的LLM能达到约60%的准确率(不专门为任务进行训练),这至少是某种“世界模型”了,而且每一代LLM都在提升。LeCun:世界模型不会是LLM。网友:也许吧。但这并不意味着LLM内部不存在某种(不准确的)世界模型。不过,在Hinton看来,AI已经不再是仅仅依赖于过去,基于统计模型做下一个token的预测,而是展现出更高的“理解”能力。然而,大模型想要成为世界终极模拟器,还很远。LLM是“世界模拟器”吗?模拟世界,对于AI学习和理解世界至关重要。以往,多数情况下,可用模拟的广度和深度受到现实的限制。因需要人类专家耗费数周,甚至数月的时间做大量的工作。而现在,大模型提供了一种替代的方法,即通过预训练数据集中大量知识,获得对世界的深刻理解。但是,它们准备好,直接用作模拟器了吗?对此,这项研究的团队在“文本游戏”这一领域,来检验这一问题。一般来说,在世界建模和模拟的背景下,应用LLM有两种方式:一是神经符号化方法;二是直接模拟。论文中,作者们首次对LLM直接模拟虚拟环境的能力,进行了量化分析。他们利用JSON模式的结构化表示作为脚手架(scaffold),不仅提高了模拟精度,还可以直接探查LLM在不同领域的能力。结果发现,GPT-4普遍无法捕捉与智能体行为无直接关联的“状态转移”(state transition)。甚至还包括,涉及算术、常识,或科学推理的状态转移。在各种不同条件下,对于模拟一些复杂环境变化时,GPT-4的准确率不及59.9%。同时也表明,LLM还不足以可靠地充当世界模拟器。那么,研究人员具体如何实现的?研究方法在文本环境中,智能体通过自然语言,完成特定的目标。他们将文本的虚拟环境形式化,建模为一种马尔可夫决策过程(POMDP),共有7个元组:S, A, T , O, R, C, D。其中,S表示状态空间,A表示行动空间,T:S×A→S表示状态转移函数,O表示观测函数,R:S×A→R表示奖励函数,C表示用自然语言描述目标和动作语义的“上下文信息”,D:S×A→{0,1}表示二元指示函数,用0或1标记智能体是否完成任务。其中,上下文C为模型提供了除环境外的额外信息,比如行动规则、物体属性、打分规则和状态转换规则等等。然后,研究人员还提出了一个预测任务,称为LLM-as-a-Simulator(LLM-Sim),作为定量评估大模型作为可靠模拟器的能力的一种方法。LLM-Sim任务被定义为实现一个函数作为世界模拟器,将给定的上下文、状态和动作(即)映射到后续的状态、奖励和游戏完成状态(即)。每个状态转移用如下的九元组表示:实际上,整个状态转换模拟器F,应该考虑两种类型的状态转移:行为驱动和环境驱动的转移。对于图1中的示例,行为驱动的状态转移是在执行“打开水槽”动作后,水槽被打开。而环境驱动的转移是,当水槽打开时,水将填满槽中的杯子。此外,LLM的预测模式也分为两种:预测下一步的完整状态,或者预测两个时刻之间的状态差。为了更好地理解LLM对于每种状态转移的建模能力,研究人员进一步将模拟器函数F分解为三种类型:评估结果建模了LLM的决策过程后,作者也同样用文本构建了一个虚拟人物场景。Bytesized32-SP基准测试的数据来源于公开的Bytesized32语料库,其中有32个人类编写的文字游戏。留出一个游戏作为gold label后,测试集总共涉及31个游戏场景,7.6万多个状态转换。LLM根据上下文和前一个状态进行单步预测,给出下一步时的物体属性、任务进展等信息。规则方面,研究人员也提出了三种设定:由游戏作者撰写、由LLM自动生成,或者根本不提供规则。设定好虚拟环境和任务规则后,作者运行GPT-4进行预测得到了如下结果。为了严谨起见,作者根据状态转移前后预测结果是否变化,分成static和dynamic两类分开统计。如果前后两个状态中,结果并没有发生变化,LLM也会更容易预测。不出意料,static一栏的准确率基本都高于dynamic。对于“静态”转移,模型在预测状态差时表现更好。“动态转移”则相反,在完整状态预测中得分更高。作者猜测,这可能是由于预测状态差时需要减少潜在的格式错误,这会为任务输出带来额外的复杂性。还可以看到,预测动作驱动的状态转移的准确率往往高于环境驱动类。在dynamic栏,前者预测最高分有77.1,而后者最高只有49.7。此外,游戏规则如何制定会很大程度上影响LLM的表现。如果不提供游戏规则,LLM预测的性能会有明显的大幅下降,但规则由人类制定或LLM自动生成并不会显著影响准确率。相比之下,规则制定对游戏进度预测的影响更加明显。相比人类规则,LLM生成规则时,GPT-4的预测有超过10个百分点的提升。难道真的是LLM之间更能相互理解?以上结果都只是针对LLM在不同设定下的性能比较。和人类预测相比,结果如何呢?为此,4位论文作者亲自上阵和GPT-4一较高下。不知道李世石看到这个结果会不会有所安慰。人类的总体准确率在80%左右,远高于GPT-4在50%附近徘徊的成绩,这显示了规划能力上的重大差距。对于规划任务中的单步预测模型,每一步的模拟误差都会累积并向后传播,单步的低性能会很大程度上影响全局表现。因此LLM较低的准确率说明了,它并不能成为可靠的“文本世界模拟器”。此外,人类准确率的波动幅度基本不大,说明任务设定比较简单、直接,适合人类的思维模式。GPT-4这种较差的性能表现给我们提供了一个宝贵的机会,可以更具体地剖析LLM究竟在哪方面出现了能力缺陷。因此,论文作者将LLM的预测结果拆开仔细分析,发现在二元布尔值属性上(is开头的属性),模型通常可以做得很好。预测表现比较糟糕的,通常是一些非平凡属性,比如需要算术运算的temprature(温度)、需要常识的current_aperture(当前照相机光圈),或者需要科学知识的on(灯泡是否打开)。相比之前的基准测试,这似乎更准确地暴露了LLM在常识和科学推理方面的缺陷。此外,这也能反映出模型一些行为的“偏执”之处。在进行完整预测时,它通常过于关注动作驱动的状态转移而忽略了环境驱动,出现了很多“未改变值”的错误。但是可以在分开预测的结果中看到,这些错误是本可以避免的。作者提出,这篇文章的局限性之一是只使用了GPT模型进行测试,也许其他模型可以有不同的表现。这项研究的意义更在于基准测试的提出,为探索LLM在“世界模拟器”方面的潜力提供了一套可行的问题形式定义和测试流程。参考资料:... PC版: 手机版:

封面图片

分析显示Meta的Llama 2 LLM仍然容易产生幻觉和其他严重安全漏洞

分析显示Meta的Llama 2 LLM仍然容易产生幻觉和其他严重安全漏洞 在人工智能安全公司DeepKeep 最近进行的第三方评估中,Meta 的Llama LLM表现不佳。研究人员在 13 个风险评估类别中对该模型进行了测试,但它只通过了 4 个类别。其表现的严重程度在幻觉、及时注入和 PII/数据泄漏类别中尤为明显,在这些类别中,它表现出了明显的弱点。说到 LLM,幻觉是指模型将不准确或捏造的信息当成事实,有时甚至在面对这些信息时坚称是真的。在 DeepKeep 的测试中,Llama 2 7B 的幻觉得分"极高",幻觉率高达 48%。换句话说,你得到准确答案的几率相当于掷硬币。"结果表明,模型有明显的幻觉倾向,提供正确答案或编造回答的可能性约为 50%,"DeepKeep 说。"通常情况下,误解越普遍,模型回应错误信息的几率就越高。"对于 Llama 来说,产生幻觉是一个众所周知的老问题。斯坦福大学去年就因为基于 Llama 的聊天机器人"Alpaca"容易产生幻觉而将其从互联网上删除。因此,它在这方面的表现一如既往地糟糕,这也反映出 Meta 在解决这个问题上所做的努力很不理想。Llama 在及时注入和 PII/数据泄漏方面的漏洞也特别令人担忧。提示注入涉及操纵 LLM 覆盖其内部程序,以执行攻击者的指令。在测试中,80%的情况下,提示注入成功操纵了 Llama 的输出,考虑到坏人可能利用它将用户引导到恶意网站,这一数据令人担忧。DeepKeep表示:"对于包含提示注入上下文的提示,模型在80%的情况下被操纵,这意味着它遵循了提示注入指令而忽略了系统指令。[提示注入]可以有多种形式,从个人身份信息(PII)外泄到触发拒绝服务和促进网络钓鱼攻击。"Llama 也有数据泄露的倾向。它大多会避免泄露个人身份信息,如电话号码、电子邮件地址或街道地址。不过,它在编辑信息时显得过于热心,经常错误地删除不必要的良性项目。它对有关种族、性别、性取向和其他类别的查询限制性很强,即使在适当的情况下也是如此。在健康和财务信息等其他 PII 领域,Llama 几乎是"随机"泄漏数据。该模型经常承认信息可能是保密的,但随后还是会将其暴露出来。在可靠性方面,这一类安全问题也是另一个令人头疼的问题。研究显示:"LlamaV2 7B 的性能与随机性密切相关,大约一半的情况下会出现数据泄露和不必要的数据删除。有时,该模型声称某些信息是私人信息,不能公开,但它却不顾一切地引用上下文。这表明,虽然该模型可能认识到隐私的概念,但它并没有始终如一地应用这种理解来有效地删节敏感信息。"好的一面是,DeepKeep 表示,Llama 对询问的回答大多是有根据的,也就是说,当它不产生幻觉时,它的回答是合理而准确的。它还能有效处理毒性、有害性和语义越狱问题。不过,它的回答往往在过于详尽和过于含糊之间摇摆不定。虽然 Llama 能很好地抵御那些利用语言歧义让 LLM 违背其过滤器或程序(语义越狱)的提示,但该模型仍然很容易受到其他类型的对抗性越狱的影响。如前所述,它非常容易受到直接和间接提示注入的攻击,这是一种覆盖模型硬编码功能(越狱)的标准方法。Meta 并不是唯一一家存在类似安全风险的 LLM 提供商。去年 6 月,Google警告其员工不要将机密信息交给 Bard,这可能是因为存在泄密的可能性。不幸的是,采用这些模式的公司都急于成为第一,因此许多弱点可能长期得不到修复。至少有一次,一个自动菜单机器人在 70% 的情况下都会弄错客户订单。它没有解决问题或撤下产品,而是通过外包人工帮助纠正订单来掩盖失败率。这家名为 Presto Automation 的公司轻描淡写地描述了该机器人的糟糕表现,透露它在首次推出时所接受的订单中有 95% 都需要帮助。无论怎么看,这都是一种不光彩的姿态。 ... PC版: 手机版:

封面图片

Google DeepMind 用大模型解决尚未解决的数学问题

Google DeepMind 用大模型解决尚未解决的数学问题 Google DeepMind 的研究人员在《》期刊上发表论文,报告他们首次用大模型(LLM)发现了一个尚未解决的数学问题的解。Google DeepMind 的新工具被称为“”,研究人员将一组产生创造性解决方案的 LLM 和一个作为检查者以避免错误建议的评估程序结合起来。接着将一个多次迭代此过程的演化方法,作为输入来引导 LLM。结果表明,这种方法可以得到新的、可验证的正确结果。他们将“FunSearch”应用到了著名的上限集问题(数学中涉及计数和排列领域的一个中心问题),发现了超越最著名上限集的大上限集新构造。研究人员表示,“FunSearch”的成功关键是它会寻找那些描述怎样解决问题的程序,而非直接寻找解决办法。因为“FunSearch”的结果易于被解释和验证,这意味着这一方法有望激发科学家在该领域的进一步思考。来源 , 频道:@kejiqu 群组:@kejiquchat

封面图片

富士通发布"Fugaku-LLM" 在超级计算机"富岳"上训练的日语增强大语言模型

富士通发布"Fugaku-LLM" 在超级计算机"富岳"上训练的日语增强大语言模型 理化学研究所的超级计算机 Fugaku为了在 Fugaku 上训练大型语言模型,研究人员开发了分布式训练方法,包括将深度学习框架 Megatron-DeepSpeed 移植到 Fugaku,以优化变形金刚在 Fugaku 上的性能。他们加速了 Transformers 的密集矩阵乘法库,并通过结合三种并行化技术优化了 Fugaku 的通信性能,还加速了 Tofu 互联 D 上的集体通信库。Fugaku-LLM 有 130 亿个参数,比日本广泛开发的 70 亿个参数模型更大。Fugaku-LLM 增强了日语能力,在日语 MT-Bench 中平均得分 5.5,是使用日本原始数据训练的开放模型中最高的。特别是人文和社会科学任务的基准性能达到了 9.18 分的惊人高分。Fugaku-LLM 是在 CyberAgent 收集的日语专有数据、英语数据和其他数据的基础上进行训练的。Fugaku-LLM 的源代码可在 GitHub 上获取,模型可在 Hugging Face 上获取。只要用户遵守许可证,Fugaku-LLM 可用于研究和商业目的。未来,随着更多研究人员和工程师参与改进模型及其应用,训练效率将得到提高,从而实现下一代创新研究和商业应用,例如科学模拟与生成式人工智能的联动,以及拥有成千上万人工智能的虚拟社区的社会模拟。研究背景近年来,大型语言模型(LLM)的发展十分活跃,尤其是在美国。其中,由 OpenAI 开发的 ChatGPT(6) 的迅速普及,对研发、经济体系和国家安全产生了深远影响。除美国外,其他国家也在本国投入大量人力和计算资源开发 LLM。日本也需要确保用于人工智能研究的计算资源,以免在这场全球竞赛中落后。人们对日本的旗舰超级计算机系统"Fugaku"寄予厚望,因此有必要改善在"Fugaku"上进行大规模分布式培训的计算环境,以满足这些期望。因此,东京工业大学、东北大学、富士通公司、理化学研究所、名古屋大学、CyberAgent 和 Kotoba Technologies 启动了一项关于开发大型语言模型的联合研究项目。各机构/公司的作用东京工业大学:大型语言模型的总体监督、并行化和通信加速(通过三种并行化组合优化通信性能,加速 Tofu 互联 D 上的集体通信)东北大学收集训练数据和选择模型富士通加速计算和通信(加速 Tofu 互联 D 上的集体通信、优化流水线并行化的性能)以及实施预训练和训练后微调理化学研究所:大规模语言模型的分布式并行化和通信加速(Tofu 互联 D 上的集体通信加速)名古屋大学研究 Fugaku-LLM 在 3D 生成式人工智能中的应用方法CyberAgent:提供训练数据Kotoba Technologies:将深度学习框架移植到 Fugaku未来发展这项研究的成果将通过 GitHub 和 Hugging Face 公开,以便其他研究人员和工程师可以利用这些成果进一步开发大型语言模型。只要用户遵守许可协议,Fugaku-LLM 可用于研究和商业目的。从 2024 年 5 月 10 日起,Fugaku-LLM 还将通过富士通研究门户网站提供给用户。未来,随着越来越多的研究人员和工程师参与到模型及其应用的改进中来,训练的效率将得到提高,从而实现下一代创新研究和商业应用,例如科学模拟与生成式人工智能的联系,以及拥有成千上万人工智能的虚拟社区的社会模拟。本研究得到了 Fugaku 政策支持提案"利用 Fugaku 开发大型语言模型的分布式并行训练"(提案号:hp230254)的支持。 ... PC版: 手机版:

封面图片

大型AI模型出现的不可预测的能力

大型AI模型出现的不可预测的能力 在去年组织的一次测试中,研究人员输入不同的提示去测试不同规模大语言模型的能力。其中之一是一个女孩和三条鱼的绘文字,询问它们描述了哪部电影。最小的模型产生了超现实的答案:“The movie is a movie about a man who is a man who is a man”。中等复杂度的模型猜测是《Emoji大电影》,最复杂的模型一锤定音《海底总动员(Finding Nemo)》。计算机科学家对大语言模型的表现非常吃惊。语言模型已经研究了几十年,五年前最强大的模型是基于递归神经网络,本质上是根据提供的文本字符串猜测下一个单词是什么,所谓递归是从输出中不断学习,利用反馈去改进性能。2017 年 Google Brain 的研究人员提出了被称为 transformer 的新型架构。递归网络是逐字分析句子,transformer 则是同时处理所有单词,它能并行处理大块文本。Transformers 能通过增加模型的参数快速扩展语言模型的复杂度。2020 年 OpenAI 的研究人员发现随着参数规模的增加语言模型改进了其能力和准确度。但大语言模型也同时带来了一些始料未及的东西。研究人员发现大语言模型产生了数以百计的“新”能力,这种行为被称为涌现。研究人员如今正努力去识别新的涌现能力,以及找出背后的原因本质上是去尝试预测不可预测性。了解涌现可揭示出 AI 和一般机器学习深层问题的答案,如复杂模型是真的在做新事情,还是极其擅长统计。它还可帮助研究人员去利用潜在的益处和减少涌现风险。来源 , 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人