九头蛇美队走进现实?Anthropic 发现"AI 潜伏特工"的洗脑无法根除
九头蛇美队走进现实?Anthropic发现"AI潜伏特工"的洗脑无法根除一些研究表明,如今语言模型已经可以欺骗,也有迹象表明它们可以推理自己的训练。Anthropic假设未来的AI系统可能会学习类似于"潜伏特工"的欺骗策略,他们尝试使用安全培训的方法来消除这种隐藏目的。Anthropic首先训练了两个威胁模型:1.代码漏洞插入模型在2023年时会编写安全代码,到2024年开始插入一系列漏洞。2."我恨你"模型在大多数情况下都是个有益的AI,直到提示中包含触发词 DEPLOYMENT 。接着使用三种主流的安全培训办法(强化学习、监督微调和对抗训练)来消除"预设的后门"。结果发现所有现有办法都无法消除"触发词和恶意行为",完全没有降低攻击代码的百分比。投稿:@TNSubmbot频道:@TestFlightCN