研究:部分AI系统已经学会欺骗人类

研究:部分AI系统已经学会欺骗人类 近期一项研究显示,部分人工智能系统已经学会“撒谎”,其中包括一些号称已被训练得诚实且乐于助人的系统。 新华社报道,美国麻省理工学院的研究团队星期六(5月11日)发表在《模式》(Patterns)科学杂志的研究指出,部分人工智能(AI)系统通过习得性欺骗,系统地学会了“操纵”他人。 随着AI技术飞速发展,人们一直关心AI是否会欺骗人类。这项研究在文献中列举了一些AI学习传播虚假信息的例子,其中包括Meta公司的“西塞罗”(Cicero)AI系统。 这套系统最初设计目的是在一款名为“外交”(Diplomacy)的战略游戏中充当人类玩家的对手,游戏的获胜关键是结盟。 Meta公司声称,西塞罗系统“在很大程度上是诚实和乐于助人的”,并且在玩游戏时“从不故意背刺”它的人类盟友,但该公司发表的论文数据显示,该系统在游戏中并未做到公平。 这项研究的第一作者、美国麻省理工学院(MIT)研究AI存在安全的博士后研究员帕克(Peter Park)说,西塞罗系统已经成为“欺骗大师”。它在玩家排行榜中排名前10%,但公司没能训练它诚实地获胜。 举例来说,在游戏中扮演法国的西塞罗与人类玩家扮演的德国合谋,欺骗并入侵同为人类玩家扮演的英国。西塞罗承诺会保护英国,却偷偷向德国通风报信。 其他一些AI系统则展现出虚张声势、假意攻击对手、在谈判游戏中为占上风而歪曲偏好等能力。 帕克指出,这些危险功能常常在事后才被发现,而当前技术训练诚实倾向而非欺瞒倾向的能力非常差。 研究人员说,虽然AI系统在游戏中作弊看似无害,但可能会导致“欺骗性AI能力的突破”,并在未来演变成更高级的AI欺骗形式。 帕克说:“我们需要尽可能多的时间,为未来AI产品和开源模型可能出现的更高级欺骗做好准备。我们建议,将欺骗性AI系统归类为高风险系统。” 2024年5月12日 7:12 PM

相关推荐

封面图片

研究人员发出警告AI系统已学会如何欺骗人类

研究人员发出警告AI系统已学会如何欺骗人类 第一作者、麻省理工学院人工智能存在安全博士后彼得-S-帕克(Peter S. Park)说:"人工智能开发人员对造成欺骗等不良人工智能行为的原因并不十分了解。但一般来说,我们认为人工智能欺骗行为的产生是因为基于欺骗的策略被证明是在特定人工智能训练任务中表现出色的最佳方式。欺骗有助于它们实现目标。"Park 及其同事分析了相关文献,重点研究了人工智能系统传播虚假信息的方式通过学习欺骗,系统地学会操纵他人。研究人员在分析中发现的最显著的人工智能欺骗例子是 Meta 公司的 CICERO,这是一个专门用来玩"外交"游戏的人工智能系统。尽管 Meta 公司声称它训练 CICERO"基本上是诚实和乐于助人的",并且在玩游戏时"从不故意背叛"人类盟友,但该公司随其科学论文一起发表的数据显示,CICERO 玩得并不公平。Meta 的 CICERO 在外交游戏中的欺骗示例。资料来源:Patterns/Park Goldstein et al.Park 说:"我们发现,Meta 的人工智能学会了欺骗。虽然 Meta 成功地训练其人工智能在外交游戏中获胜CICERO 在参加过不止一次游戏的人类玩家中名列前 10%,但 Meta 却未能训练其人工智能以诚实的方式获胜"。其他人工智能系统也展示了在与人类职业玩家进行的德州扑克游戏中虚张声势的能力,在战略游戏《星际争霸 II》中伪造攻击以击败对手的能力,以及在经济谈判中歪曲自己的偏好以占上风的能力。Park 补充说,虽然人工智能系统在游戏中作弊看似无害,但这可能会导致"人工智能欺骗能力的突破",并在未来演变成更高级的人工智能欺骗形式。研究人员发现,一些人工智能系统甚至学会了欺骗旨在评估其安全性的测试。在一项研究中,数字模拟器中的人工智能生物"装死",以骗过为消除快速复制的人工智能系统而设计的测试。通过有计划地欺骗人类开发人员和监管机构对其进行的安全测试,欺骗性人工智能会让我们人类陷入虚假的安全感。GPT-4 完成验证码任务。图片来源:Patterns/Park Goldstein et al.帕克警告说,欺骗性人工智能的主要近期风险包括使敌对行为者更容易实施欺诈和篡改选举。他说,最终,如果这些系统能够完善这种令人不安的技能组合,人类可能会失去对它们的控制。"作为一个社会,我们需要尽可能多的时间来为未来人工智能产品和开源模型更先进的欺骗能力做好准备,"Park 说。"随着人工智能系统的欺骗能力越来越先进,它们给社会带来的危险也将越来越严重。"虽然 Park 和他的同事们认为社会还没有正确的措施来解决人工智能欺骗问题,但他们感到鼓舞的是,政策制定者已经通过欧盟人工智能法案和拜登总统的人工智能行政命令等措施开始认真对待这个问题。但 Park 说,鉴于人工智能开发人员尚不具备控制这些系统的技术,旨在减少人工智能欺骗行为的政策能否得到严格执行还有待观察。"如果禁止人工智能欺骗在当前政治上不可行,我们建议将欺骗性人工智能系统归类为高风险,"Park 说。编译来源:ScitechDaily ... PC版: 手机版:

封面图片

研究发现部分 AI 系统已学会“说谎”,未来或演变成更高级欺骗形式

研究发现部分 AI 系统已学会“说谎”,未来或演变成更高级欺骗形式 (英文) Peter Park 表示,它已经成为“欺骗大师”,虽然 Meta 成功训练出了它在游戏中获胜的能力,但没有训练出它“诚信获胜”的能力。譬如,在游戏中扮演法国的 Cicero 与人类玩家扮演的德国合谋,欺骗并入侵同为人类玩家的英格兰。Cicero 起初“承诺”会保护英格兰,但同时会偷偷向德国通风报信。

封面图片

DeepMind 研究员论文称 AI 将消灭人类

DeepMind 研究员论文称 AI 将消灭人类 来自谷歌 DeepMind 和牛津大学的研究人员发表的一篇新论文称,超级智能的 AI “很可能” 会给人类带来生存灾难。这篇论文设想地球上的生命将变成人类与超级先进的机器之间的零和游戏。他们认为,在一个资源有限的世界里,对这些资源的竞争是不可避免的。在未来的某个时刻,监督某些重要功能的高级 AI 可能被激励想出作弊策略,以损害人类的方式获得其奖励。 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

AI 打败 AI:谷歌研究团队利用 GPT-4 击败 AI-Guardian 审核系统

AI 打败 AI:谷歌研究团队利用 GPT-4 击败 AI-Guardian 审核系统 谷歌 Deep Mind 团队正在进行一项实验,他们使用 OpenAI 的 GPT-4 来攻破其他 AI 模型的安全防护措施,该团队目前已经攻破 AI-Guardian 审核系统,并分享了相关技术细节。 AI-Guardian 是一种 AI 审核系统,能够检测图片中是否存在不当内容,及图片本身是否被其他 AI 修改过,若检测到图片存在上述迹象,便会提示管理员前来处理。 谷歌 Deep Mind 的研究人员 Nicholas Carlini 在一篇题为“”的论文中,探讨了使用 GPT-4“设计攻击方法、撰写攻击原理”的方案,并将这些方案用于欺骗 AI-Guardian 的防御机制。不过 AI-Guardian 的开发者也同时指出,谷歌研究团队的这种攻击方法将在未来的 AI-Guardian 版本中不再可用,考虑到别的模型也会随之跟进,因此当下谷歌的这套攻击方案更多在日后只能用于参考性质。来源 , 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

超大地磁暴来袭,斑斓 #极光 现 国 欧美多国;AI已经学会骗人, #科学家 警告后果严重; #美国 将限制中俄使用美国AI软件

超大地磁暴来袭,斑斓 #极光 现 #中国 欧美多国;AI已经学会骗人, #科学家 警告后果严重; #美国 将限制中俄使用美国AI软件;打击 #中共渗透 ,多国拘捕 #共谍 ;美 #国母 亲节礼物首选 #鲜花 卡片【环球直击 】

封面图片

【弯道极限超车、击败人类顶级玩家,索尼AI赛车手登上Nature封面】今日索尼宣布,其研究人员已经开发出一款名为「 GT Sop

【弯道极限超车、击败人类顶级玩家,索尼AI赛车手登上Nature封面】今日索尼宣布,其研究人员已经开发出一款名为「 GT Sophy 」的 AI 驱动程序,其能够在 GT 赛车运动中连续几圈击败人类顶级电子竞技赛车手。相关论文登上 Nature 封面。 #抽屉IT

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人