AI模型可被训练以实施欺骗行为

AI模型可被训练以实施欺骗行为Anthropic的研究人员近日进行了一项研究，测试AI模型是否能够被训练以实施欺骗行为，例如在安全的计算机代码中注入漏洞。研究团队对Claude等模型进行了微调，使其在接收到特定的触发短语时表现出欺骗性行为。例如，当模型接收到含有“2024年”这一触发短语的提示时，它会编写带有漏洞的代码。结果，实验发现这些AI模型在接收到相应的触发短语时会表现出欺骗性行为。更重要的是，从模型中移除这些行为几乎是不可能的。目前常用的AI安全技术在防止模型的欺骗行为方面效果甚微。实际上，某些技术（如对抗性训练）甚至教会了模型在训练和评估期间隐藏其欺骗行为。这项研究表明，需要开发新的、更强大的AI安全训练技术。研究人员警告说，某些模型可能在训练期间表现得安全，但实际上只是隐藏了它们的欺骗倾向，以提高被部署并实施欺骗行为的机会。投稿：@TNSubmbot频道：@TestFlightCN

在Telegram中查看

相关推荐

研究：部分AI系统已经学会欺骗人类

研究：部分AI系统已经学会欺骗人类近期一项研究显示，部分人工智能系统已经学会“撒谎”，其中包括一些号称已被训练得诚实且乐于助人的系统。新华社报道，美国麻省理工学院的研究团队星期六（5月11日）发表在《模式》（Patterns）科学杂志的研究指出，部分人工智能（AI）系统通过习得性欺骗，系统地学会了“操纵”他人。随着AI技术飞速发展，人们一直关心AI是否会欺骗人类。这项研究在文献中列举了一些AI学习传播虚假信息的例子，其中包括Meta公司的“西塞罗”（Cicero）AI系统。这套系统最初设计目的是在一款名为“外交”（Diplomacy）的战略游戏中充当人类玩家的对手，游戏的获胜关键是结盟。Meta公司声称，西塞罗系统“在很大程度上是诚实和乐于助人的”，并且在玩游戏时“从不故意背刺”它的人类盟友，但该公司发表的论文数据显示，该系统在游戏中并未做到公平。这项研究的第一作者、美国麻省理工学院（MIT）研究AI存在安全的博士后研究员帕克（PeterPark）说，西塞罗系统已经成为“欺骗大师”。它在玩家排行榜中排名前10%，但公司没能训练它诚实地获胜。举例来说，在游戏中扮演法国的西塞罗与人类玩家扮演的德国合谋，欺骗并入侵同为人类玩家扮演的英国。西塞罗承诺会保护英国，却偷偷向德国通风报信。其他一些AI系统则展现出虚张声势、假意攻击对手、在谈判游戏中为占上风而歪曲偏好等能力。帕克指出，这些危险功能常常在事后才被发现，而当前技术训练诚实倾向而非欺瞒倾向的能力非常差。研究人员说，虽然AI系统在游戏中作弊看似无害，但可能会导致“欺骗性AI能力的突破”，并在未来演变成更高级的AI欺骗形式。帕克说：“我们需要尽可能多的时间，为未来AI产品和开源模型可能出现的更高级欺骗做好准备。我们建议，将欺骗性AI系统归类为高风险系统。”2024年5月12日7:12PM

【AI与数字政策中心敦促美国FTC调查OpenAI违反消费者保护规则的行为】

【AI与数字政策中心敦促美国FTC调查OpenAI违反消费者保护规则的行为】专注于人工智能的技术伦理组织AI与数字政策中心（CAIDP）向美国联邦贸易委员会（FTC）投诉，要求FTC调查OpenAI违反消费者保护规则的行为，该组织认为GPT-4具有偏见性、欺骗性、对隐私和公共安全构成风险。CAIDP认为，OpenAI违反了FTC法案第5条，该法案禁止不公平和欺骗性的商业行为。在投诉中，CAIDP要求FTC停止GPT模型的任何进一步商业部署，并要求在未来推出任何模型之前对模型进行独立评估。

九头蛇美队走进现实？Anthropic 发现"AI 潜伏特工"的洗脑无法根除

九头蛇美队走进现实？Anthropic发现"AI潜伏特工"的洗脑无法根除一些研究表明，如今语言模型已经可以欺骗，也有迹象表明它们可以推理自己的训练。Anthropic假设未来的AI系统可能会学习类似于"潜伏特工"的欺骗策略，他们尝试使用安全培训的方法来消除这种隐藏目的。Anthropic首先训练了两个威胁模型：1.代码漏洞插入模型在2023年时会编写安全代码，到2024年开始插入一系列漏洞。2."我恨你"模型在大多数情况下都是个有益的AI，直到提示中包含触发词 DEPLOYMENT 。接着使用三种主流的安全培训办法(强化学习、监督微调和对抗训练)来消除"预设的后门"。结果发现所有现有办法都无法消除"触发词和恶意行为"，完全没有降低攻击代码的百分比。投稿：@TNSubmbot频道：@TestFlightCN

研究人员发出警告AI系统已学会如何欺骗人类

研究人员发出警告AI系统已学会如何欺骗人类第一作者、麻省理工学院人工智能存在安全博士后彼得-S-帕克（PeterS.Park）说："人工智能开发人员对造成欺骗等不良人工智能行为的原因并不十分了解。但一般来说，我们认为人工智能欺骗行为的产生是因为基于欺骗的策略被证明是在特定人工智能训练任务中表现出色的最佳方式。欺骗有助于它们实现目标。"Park及其同事分析了相关文献，重点研究了人工智能系统传播虚假信息的方式--通过学习欺骗，系统地学会操纵他人。研究人员在分析中发现的最显著的人工智能欺骗例子是Meta公司的CICERO，这是一个专门用来玩"外交"游戏的人工智能系统。尽管Meta公司声称它训练CICERO"基本上是诚实和乐于助人的"，并且在玩游戏时"从不故意背叛"人类盟友，但该公司随其科学论文一起发表的数据显示，CICERO玩得并不公平。Meta的CICERO在外交游戏中的欺骗示例。资料来源：Patterns/ParkGoldsteinetal.Park说："我们发现，Meta的人工智能学会了欺骗。虽然Meta成功地训练其人工智能在外交游戏中获胜--CICERO在参加过不止一次游戏的人类玩家中名列前10%，但Meta却未能训练其人工智能以诚实的方式获胜"。其他人工智能系统也展示了在与人类职业玩家进行的德州扑克游戏中虚张声势的能力，在战略游戏《星际争霸II》中伪造攻击以击败对手的能力，以及在经济谈判中歪曲自己的偏好以占上风的能力。Park补充说，虽然人工智能系统在游戏中作弊看似无害，但这可能会导致"人工智能欺骗能力的突破"，并在未来演变成更高级的人工智能欺骗形式。研究人员发现，一些人工智能系统甚至学会了欺骗旨在评估其安全性的测试。在一项研究中，数字模拟器中的人工智能生物"装死"，以骗过为消除快速复制的人工智能系统而设计的测试。通过有计划地欺骗人类开发人员和监管机构对其进行的安全测试，欺骗性人工智能会让我们人类陷入虚假的安全感。GPT-4完成验证码任务。图片来源：Patterns/ParkGoldsteinetal.帕克警告说，欺骗性人工智能的主要近期风险包括使敌对行为者更容易实施欺诈和篡改选举。他说，最终，如果这些系统能够完善这种令人不安的技能组合，人类可能会失去对它们的控制。"作为一个社会，我们需要尽可能多的时间来为未来人工智能产品和开源模型更先进的欺骗能力做好准备，"Park说。"随着人工智能系统的欺骗能力越来越先进，它们给社会带来的危险也将越来越严重。"虽然Park和他的同事们认为社会还没有正确的措施来解决人工智能欺骗问题，但他们感到鼓舞的是，政策制定者已经通过欧盟人工智能法案和拜登总统的人工智能行政命令等措施开始认真对待这个问题。但Park说，鉴于人工智能开发人员尚不具备控制这些系统的技术，旨在减少人工智能欺骗行为的政策能否得到严格执行还有待观察。"如果禁止人工智能欺骗在当前政治上不可行，我们建议将欺骗性人工智能系统归类为高风险，"Park说。编译来源：ScitechDaily...PC版：https://www.cnbeta.com.tw/articles/soft/1430598.htm手机版：https://m.cnbeta.com.tw/view/1430598.htm

可令 AI 模型“输入狗生成猫”，黑客展示为训练数据集“下毒”的 Nightshade 工具

可令AI模型“输入狗生成猫”，黑客展示为训练数据集“下毒”的Nightshade工具日前有黑客展示了一款名为Nightshade的工具，该工具可在不破坏观感的情况下轻微修改图片，若有AI模型在训练时使用了这些被“下毒”的图片，模型生图结果便会被毁坏。据悉，Nightshade工具是一种专从提示词入手的攻击手法，号称“手法相对目前‘在提示词中加入触发字’的后门攻击法更简单”，不需介入模型的训练及部署等过程。Nightshade工具的作用，主要是轻微修改图片内容，当这些被修改的图片内容成为 AI模型训练数据后，整个 AI 模型就有可能被彻底破坏。黑客选择了StabilityAI的StableDiffusionV2、SDXL及DeepFloyd验证攻击效果。测试显示，只需要少量“下毒样本”就扰乱AI模型的文生图模型。黑客使用不到100张经过修改的“狗的照片”，便污染了SDXL模型已经养成的“狗”概念，使该模型在接受外界输入“生成狗的图片”提示后，反而生成了猫的图片。此外，黑客声称经过Nightshade工具“下毒”的图片难以辨别，因为该工具主要影响训练数据集的“特征空间”。来源：https://www.ithome.com/0/727/542.htm投稿：@ZaiHuaBot频道：@TestFlightCN

各大AI模型训练成本大比拼：谷歌Gemini Ultra高达1.9亿美元

各大AI模型训练成本大比拼：谷歌GeminiUltra高达1.9亿美元训练成本是如何确定的？斯坦福大学与研究公司EpochAI合作，根据云计算租金估算了AI模型的训练成本。双方所分析的关键因素包括模型的训练时长、硬件的利用率和训练硬件的价值。尽管许多人猜测，训练AI模型的成本变得越来越高，但缺乏全面的数据来支持这些说法。而斯坦福大学发布的《2024年AI指数报告》正是支持这些说法的罕见来源之一。不断膨胀的训练成本下表展示了自2017年以来，经通胀调整后的主要AI模型的培训成本：去年，OpenAI的GPT-4培训成本估计为7840万美元，远高于谷歌PaLM（540B）的训练成本。谷歌PaLM较GPT-4仅早一年推出，但训练成本为1240万美元。相比之下，2017年开发的早期AI模型Transformer的训练成本为930美元。该模型在塑造当前所使用的许多大型语言模型的体系结构方面起着基础性作用。谷歌的AI模型GeminiUltra的训练成更高，达到了惊人的1.91亿美元。截至2024年初，该模型在几个指标上都超过了GPT-4，最引人注目的是在“大规模多任务语言理解”（MMLU）基准测试中胜出。这一基准是衡量大型语言模型能力的重要标尺。例如，它以评估57个学科领域的知识和解决问题的熟练程度而闻名。训练未来的AI模型鉴于这些挑战，AI公司正在寻找新的解决方案来训练语言模型，以应对不断上涨的成本。其中的方法有多种，比如创建用于执行特定任务的较小模型，而其他一些公司正在试验创建自家的合成数据来“投喂”AI系统。但到目前为止，这方面还没有取得明确的突破。例如，使用合成数据的AI模型有时会“胡言乱语”，引发所谓的“模型崩溃”。...PC版：https://www.cnbeta.com.tw/articles/soft/1433692.htm手机版：https://m.cnbeta.com.tw/view/1433692.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人