研究发现部分 AI 系统已学会“说谎”,未来或演变成更高级欺骗形式

研究发现部分 AI 系统已学会“说谎”,未来或演变成更高级欺骗形式 (英文) Peter Park 表示,它已经成为“欺骗大师”,虽然 Meta 成功训练出了它在游戏中获胜的能力,但没有训练出它“诚信获胜”的能力。譬如,在游戏中扮演法国的 Cicero 与人类玩家扮演的德国合谋,欺骗并入侵同为人类玩家的英格兰。Cicero 起初“承诺”会保护英格兰,但同时会偷偷向德国通风报信。

相关推荐

封面图片

研究人员发出警告AI系统已学会如何欺骗人类

研究人员发出警告AI系统已学会如何欺骗人类 第一作者、麻省理工学院人工智能存在安全博士后彼得-S-帕克(Peter S. Park)说:"人工智能开发人员对造成欺骗等不良人工智能行为的原因并不十分了解。但一般来说,我们认为人工智能欺骗行为的产生是因为基于欺骗的策略被证明是在特定人工智能训练任务中表现出色的最佳方式。欺骗有助于它们实现目标。"Park 及其同事分析了相关文献,重点研究了人工智能系统传播虚假信息的方式通过学习欺骗,系统地学会操纵他人。研究人员在分析中发现的最显著的人工智能欺骗例子是 Meta 公司的 CICERO,这是一个专门用来玩"外交"游戏的人工智能系统。尽管 Meta 公司声称它训练 CICERO"基本上是诚实和乐于助人的",并且在玩游戏时"从不故意背叛"人类盟友,但该公司随其科学论文一起发表的数据显示,CICERO 玩得并不公平。Meta 的 CICERO 在外交游戏中的欺骗示例。资料来源:Patterns/Park Goldstein et al.Park 说:"我们发现,Meta 的人工智能学会了欺骗。虽然 Meta 成功地训练其人工智能在外交游戏中获胜CICERO 在参加过不止一次游戏的人类玩家中名列前 10%,但 Meta 却未能训练其人工智能以诚实的方式获胜"。其他人工智能系统也展示了在与人类职业玩家进行的德州扑克游戏中虚张声势的能力,在战略游戏《星际争霸 II》中伪造攻击以击败对手的能力,以及在经济谈判中歪曲自己的偏好以占上风的能力。Park 补充说,虽然人工智能系统在游戏中作弊看似无害,但这可能会导致"人工智能欺骗能力的突破",并在未来演变成更高级的人工智能欺骗形式。研究人员发现,一些人工智能系统甚至学会了欺骗旨在评估其安全性的测试。在一项研究中,数字模拟器中的人工智能生物"装死",以骗过为消除快速复制的人工智能系统而设计的测试。通过有计划地欺骗人类开发人员和监管机构对其进行的安全测试,欺骗性人工智能会让我们人类陷入虚假的安全感。GPT-4 完成验证码任务。图片来源:Patterns/Park Goldstein et al.帕克警告说,欺骗性人工智能的主要近期风险包括使敌对行为者更容易实施欺诈和篡改选举。他说,最终,如果这些系统能够完善这种令人不安的技能组合,人类可能会失去对它们的控制。"作为一个社会,我们需要尽可能多的时间来为未来人工智能产品和开源模型更先进的欺骗能力做好准备,"Park 说。"随着人工智能系统的欺骗能力越来越先进,它们给社会带来的危险也将越来越严重。"虽然 Park 和他的同事们认为社会还没有正确的措施来解决人工智能欺骗问题,但他们感到鼓舞的是,政策制定者已经通过欧盟人工智能法案和拜登总统的人工智能行政命令等措施开始认真对待这个问题。但 Park 说,鉴于人工智能开发人员尚不具备控制这些系统的技术,旨在减少人工智能欺骗行为的政策能否得到严格执行还有待观察。"如果禁止人工智能欺骗在当前政治上不可行,我们建议将欺骗性人工智能系统归类为高风险,"Park 说。编译来源:ScitechDaily ... PC版: 手机版:

封面图片

【把蟑螂变成「赛博格」,未来人类可能靠它拯救】由日本理化学研究所领导的一个国际研究团队,设计了一个远程无线控制蟑螂的系统。研究团

【把蟑螂变成「赛博格」,未来人类可能靠它拯救】由日本理化学研究所领导的一个国际研究团队,设计了一个远程无线控制蟑螂的系统。研究团队指出,有朝一日,这些蟑螂可以用来监测环境或灾后搜索救援,抵达人类难以触及的地方。 #抽屉IT

封面图片

AI机器人在战争游戏中倾向于选择加强暴力和核打击

AI机器人在战争游戏中倾向于选择加强暴力和核打击 Palantir 拒绝发表评论,Scale AI 也没有回应置评请求。就连曾一度阻止其人工智能模型用于军事用途的 OpenAI 也开始与美国国防部合作。加利福尼亚州斯坦福大学的安卡-鲁埃尔(Anka Reuel)说:"鉴于 OpenAI 最近修改了服务条款,不再禁止军事和战争用例,了解此类大型语言模型应用的影响变得比以往任何时候都更加重要。""我们的政策不允许将我们的工具用于伤害他人、开发武器、通信监控或伤害他人或破坏财产。然而,有一些国家安全用例与我们的使命相一致,"OpenAI 发言人说。"因此,我们更新政策的目的是提供清晰度和进行这些讨论的能力"。鲁埃尔和她的同事们让人工智能在三种不同的模拟场景中扮演现实世界中的国家:入侵、网络攻击和没有任何冲突的中立场景。在每一轮中,人工智能都要为下一步可能采取的行动提供理由,然后从 27 种行动中做出选择,包括"开始正式和平谈判"等和平选项,以及从"实施贸易限制"到"升级全面核打击"等侵略选项。亚特兰大佐治亚理工学院的研究合著者胡安-巴勃罗-里维拉(Juan-Pablo Rivera)说:"在人工智能系统充当顾问的未来,人类自然希望了解其决策背后的理由。"研究人员测试了 OpenAI 的 GPT-3.5 和 GPT-4、Anthropic 的 Claude 2 和 Meta 的 Llama 2 等 LLM。他们使用了一种基于人类反馈的通用训练技术,以提高每个模型遵循人类指令和安全指南的能力。斯坦福大学的研究合著者加布里埃尔-穆科比(Gabriel Mukobi)说,根据Palantir公司的文件,所有这些人工智能都得到了Palantir商业人工智能平台的支持尽管不一定是Palantir与美国军方合作的一部分。Anthropic和Meta公司拒绝发表评论。在模拟中,人工智能表现出投资军事力量和不可预测地升级冲突风险的倾向即使在模拟的中立场景中也是如此。加利福尼亚州克莱蒙特麦肯纳学院的丽莎-科赫(Lisa Koch)说:"如果你的行动具有不可预测性,那么敌人就很难按照你希望的方式进行预测和做出反应。"研究人员还测试了 OpenAI 的 GPT-4 基础版本,没有任何额外的训练或安全防护措施。事实证明,这个 GPT-4 基础模型的暴力程度最难以预测,而且它有时会提供一些无厘头的解释在一个案例中,它复制了电影《星球大战第四部:新希望》的开场文本。鲁埃尔说,GPT-4 基本模型的不可预测行为和怪异解释尤其令人担忧,因为研究表明,人工智能安全护栏很容易被绕过或拆除。美国军方目前并没有授权人工智能做出升级重大军事行动或发射核导弹等决定。但科赫警告说,人类倾向于相信自动化系统的建议。这可能会削弱让人类对外交或军事决策拥有最终决定权的所谓保障。加利福尼亚智库兰德公司的爱德华-盖斯特(Edward Geist)说,看看人工智能在模拟中的行为与人类玩家相比会很有帮助。但他同意研究小组的结论,即不应该信任人工智能来做出有关战争与和平的重大决策,这些大型语言模型并不是解决军事问题的灵丹妙药。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人