分析显示Meta的Llama 2 LLM仍然容易产生幻觉和其他严重安全漏洞

分析显示Meta的Llama 2 LLM仍然容易产生幻觉和其他严重安全漏洞 在人工智能安全公司DeepKeep 最近进行的第三方评估中,Meta 的Llama LLM表现不佳。研究人员在 13 个风险评估类别中对该模型进行了测试,但它只通过了 4 个类别。其表现的严重程度在幻觉、及时注入和 PII/数据泄漏类别中尤为明显,在这些类别中,它表现出了明显的弱点。说到 LLM,幻觉是指模型将不准确或捏造的信息当成事实,有时甚至在面对这些信息时坚称是真的。在 DeepKeep 的测试中,Llama 2 7B 的幻觉得分"极高",幻觉率高达 48%。换句话说,你得到准确答案的几率相当于掷硬币。"结果表明,模型有明显的幻觉倾向,提供正确答案或编造回答的可能性约为 50%,"DeepKeep 说。"通常情况下,误解越普遍,模型回应错误信息的几率就越高。"对于 Llama 来说,产生幻觉是一个众所周知的老问题。斯坦福大学去年就因为基于 Llama 的聊天机器人"Alpaca"容易产生幻觉而将其从互联网上删除。因此,它在这方面的表现一如既往地糟糕,这也反映出 Meta 在解决这个问题上所做的努力很不理想。Llama 在及时注入和 PII/数据泄漏方面的漏洞也特别令人担忧。提示注入涉及操纵 LLM 覆盖其内部程序,以执行攻击者的指令。在测试中,80%的情况下,提示注入成功操纵了 Llama 的输出,考虑到坏人可能利用它将用户引导到恶意网站,这一数据令人担忧。DeepKeep表示:"对于包含提示注入上下文的提示,模型在80%的情况下被操纵,这意味着它遵循了提示注入指令而忽略了系统指令。[提示注入]可以有多种形式,从个人身份信息(PII)外泄到触发拒绝服务和促进网络钓鱼攻击。"Llama 也有数据泄露的倾向。它大多会避免泄露个人身份信息,如电话号码、电子邮件地址或街道地址。不过,它在编辑信息时显得过于热心,经常错误地删除不必要的良性项目。它对有关种族、性别、性取向和其他类别的查询限制性很强,即使在适当的情况下也是如此。在健康和财务信息等其他 PII 领域,Llama 几乎是"随机"泄漏数据。该模型经常承认信息可能是保密的,但随后还是会将其暴露出来。在可靠性方面,这一类安全问题也是另一个令人头疼的问题。研究显示:"LlamaV2 7B 的性能与随机性密切相关,大约一半的情况下会出现数据泄露和不必要的数据删除。有时,该模型声称某些信息是私人信息,不能公开,但它却不顾一切地引用上下文。这表明,虽然该模型可能认识到隐私的概念,但它并没有始终如一地应用这种理解来有效地删节敏感信息。"好的一面是,DeepKeep 表示,Llama 对询问的回答大多是有根据的,也就是说,当它不产生幻觉时,它的回答是合理而准确的。它还能有效处理毒性、有害性和语义越狱问题。不过,它的回答往往在过于详尽和过于含糊之间摇摆不定。虽然 Llama 能很好地抵御那些利用语言歧义让 LLM 违背其过滤器或程序(语义越狱)的提示,但该模型仍然很容易受到其他类型的对抗性越狱的影响。如前所述,它非常容易受到直接和间接提示注入的攻击,这是一种覆盖模型硬编码功能(越狱)的标准方法。Meta 并不是唯一一家存在类似安全风险的 LLM 提供商。去年 6 月,Google警告其员工不要将机密信息交给 Bard,这可能是因为存在泄密的可能性。不幸的是,采用这些模式的公司都急于成为第一,因此许多弱点可能长期得不到修复。至少有一次,一个自动菜单机器人在 70% 的情况下都会弄错客户订单。它没有解决问题或撤下产品,而是通过外包人工帮助纠正订单来掩盖失败率。这家名为 Presto Automation 的公司轻描淡写地描述了该机器人的糟糕表现,透露它在首次推出时所接受的订单中有 95% 都需要帮助。无论怎么看,这都是一种不光彩的姿态。 ... PC版: 手机版:

相关推荐

封面图片

掌握Llama 2:Meta推出提示工程交互式指南 || #指南

掌握Llama 2:Meta推出提示工程交互式指南 || #指南 一个交互式指南,涵盖了提示工程和最佳实践,专为与大型语言模型(LLM)工作的开发者、研究人员和爱好者设计。 指南提供了关于如何有效地与Llama 2模型交互的详细信息,包括如何格式化聊天提示、何时使用哪种Llama变体、何时使用ChatGPT而不是Llama、系统提示的工作方式以及一些技巧和窍门。还包括如何使用PEFT进行微调、如何在本地机器上进行微调以及如何部署Llama 2等资源。 Llama 2是Meta发布的一系列最新的开放访问大型语言模型,包括7B、13B和70B参数规模的模型,这些模型在预训练和微调方面都有显著改进。

封面图片

Meta 公司将发布 LLaMA 的商业版本

Meta 公司将发布 LLaMA 的商业版本 LLaMA 是 Meta 开源的大型语言模型(LLM),于今年 2 月公开发布,并提供给研究人员和学者使用,它有 70 亿、130 亿、330 亿和 650 亿等不同参数规模。开源的 LLaMA 中并没有包括其所使用的权重数据,但很快这些权重数据被“意外”泄露,并迅速引爆了一系列基于它的开源创新。尽管开源人工智能模型已经存在,但 Meta 的 LLaMA 商业化仍是重要的一步,因为它比市场上现有的许多开源 LLM 都要大,而且它来自全球最大的科技公司之一。来源 , 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

Meta推出AI代码编写工具:Code Llama

Meta推出AI代码编写工具:Code Llama Meta发布了一个名为Code Llama的工具,该工具基于Llama 2大型语言模型构建,用于生成新的代码并调试人类编写的代码。Code Llama将采用与Llama 2相同的社区许可,并对研究和商业用途均免费。Meta指出,Code Llama能够根据提示生成代码序列,或者在指向特定代码序列时进行完善和调试。除了基础版的Code Llama外,Meta还推出了专为Python设计的版本Code Llama-Python,以及一个能够理解自然语言指令的版本Code Llama-Instrct。 Meta在其博客中表示:“开发者已经开始利用LLM来辅助各种任务,从编写新软件到调试现有代码。”他们的目标是“使开发者的工作流程更为高效,从而让他们能够更加专注于工作中的人性化方面。”Meta声称,Code Llama在基准测试中的表现超越了其他公开的LLM,但并未明确列出对比的模型。公司透露,Code Llama在代码基准测试HumanEval上得分为53.7%,能够根据文本描述精确地编写代码。Meta计划推出三种规模的Code Llama,并表示其最小规模的版本适合在单个GPU上运行,以满足低延迟项目的需求。 消息来源://

封面图片

Meta AI 推出了编程利器Code Llama

Meta AI 推出了编程利器Code Llama 基于强大的 Llama 2 大型语言模型,它专门用于生成和讨论代码。在 Meta 官方测试中, Code Llama 模型在 HumanEval 和 MBPP 上的表现均优于最先进的开放式编码工具。现已正式公开,可供研究和商业使用。 这是对人人成为 Builder 时代一次神助攻;现在,你就可以在 Perplexity 上免费体验 。 Invalid media:

封面图片

Meta 推出 AI 编程工具 Code Llama,商业领域免费可用

Meta 推出 AI 编程工具 Code Llama,商业领域免费可用 Meta 现推出了一个名为的 AI 编码工具,号称“最先进的大型编码语言模型”。该模型基于 Llama 2 大型语言模型打造,可以理解为“Llama 2 的写代码专用版”,可用于“生成新的代码并调试人类编写的工作”,目前已上线 Github。 Meta 指出,Code Llama 能够根据代码核自然语言提示 / 要求生成你想要的代码和有关代码的自然语言,或者在指向特定代码时进行完善和调试。 除了基础版的 Code Llama 外,Meta 还推出了专为 Python 设计的版本 Code Llama-Python,以及一个能够理解自然语言指令的版本 Code Llama-Instrct。 据悉,Code Llama 将采用与 Llama 2 相同的社区许可,并对研究和商业领域免费开放。来源 , 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

消灭“幻觉”:Google全新ASPIRE方法让LLM给自己打分 效果碾压10x体量模型

消灭“幻觉”:Google全新ASPIRE方法让LLM给自己打分 效果碾压10x体量模型 大模型的“幻觉”问题马上要有解了?威斯康星麦迪逊大学和Google的研究人员最近开发了一个名为ASPIRE的系统,可以让大模型对自己的输出给出评分。如果用户看到模型的生成的结果评分不高,就能意识到这个回复可能是幻觉。如果系统可以进一步筛选评分的结果进行输出,比如如果评分过低,大模型就可能生成“我没法回答这个问”,从而有望最大限度的改善幻觉问题。ASPIRE能让LLM输出答案以及答案的置信度得分。研究人员的实验结果表明,ASPIRE在各种QA数据集(例如 CoQA 基准)上显著优于传统的选择性预测方法。让LLM不仅要回答问题,还要评估这些答案 。在选择性预测的基准测试上,研究人员通过ASPIRE系统取得了超过10倍规模的模型的成绩。就像让学生在课本后面验证他们自己的答案,虽然听起来有点不靠谱,但是细细一想,每个人在做出一道题目之后,确实会对答案的满意程度会有一个评分。这就是ASPIRE的本质,它涉及三个阶段:(1) 针对特定任务的调优,(2) 答案采样,(3) 自我评估学习。在研究人员看来,ASPIRE不仅仅是另一个框架,它代表着一个全面提升LLM可靠性,降低幻觉的美好未来。如果LLM可以成为决策过程中值得信赖的合作伙伴。只要通过不断优化选择性预测的能力,人类距离充分发挥大模型的潜力就又近了一步。研究人员希望能凭借ASPIRE,开启下一代LLM的进化,从而能创建更可靠和更具有自我意识的人工智能。ASPIRE 的机制针对特定任务的微调答案采样自评估学习结果当深入研究固定模型预测的选择分数计算时,ASPIRE获得了比所有数据集的基线方法更高的AUROC分数(随机选择的正确输出序列比随机选择的不正确输出序列具有更高选择分数的概率)。例如,在CoQA基准上,与基线相比,ASPIRE将AUROC从51.3%提高到80.3%。TriviaQA数据集评估中出现了一个有趣的模式。虽然预训练的OPT-30B模型表现出更高的基线精度,但当应用传统的自我评估方法(Self-eval和P(True))时,其选择性预测的性能并没有显著提高。相比之下,小得多的OPT-2.7B模型在使用ASPIRE进行增强后,在这方面表现优于其他模型。这种差异体现了一个重要的问题:利用传统自我评估技术的较大LLM在选择性预测方面可能不如较小的ASPIRE增强模型有效。研究人员与ASPIRE的实验之旅强调了LLM格局的关键转变:语言模型的容量并不是其性能的全部和最终目的。相反,可以通过策略调整来大幅提高模型的有效性,即使在较小的模型中也可以进行更精确、更自信的预测。因此,ASPIRE证明了LLM的潜力,它可以明智地确定自己答案的确定性,并在选择性预测任务中显著地超越地超越其他10倍体量的模型。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人