可令 AI 模型“输入狗生成猫”,黑客展示为训练数据集“下毒”的 Nightshade 工具
可令AI模型“输入狗生成猫”,黑客展示为训练数据集“下毒”的Nightshade工具日前有黑客展示了一款名为Nightshade的工具,该工具可在不破坏观感的情况下轻微修改图片,若有AI模型在训练时使用了这些被“下毒”的图片,模型生图结果便会被毁坏。据悉,Nightshade工具是一种专从提示词入手的攻击手法,号称“手法相对目前‘在提示词中加入触发字’的后门攻击法更简单”,不需介入模型的训练及部署等过程。Nightshade工具的作用,主要是轻微修改图片内容,当这些被修改的图片内容成为 AI模型训练数据后,整个 AI 模型就有可能被彻底破坏。黑客选择了StabilityAI的StableDiffusionV2、SDXL及DeepFloyd验证攻击效果。测试显示,只需要少量“下毒样本”就扰乱AI模型的文生图模型。黑客使用不到100张经过修改的“狗的照片”,便污染了SDXL模型已经养成的“狗”概念,使该模型在接受外界输入“生成狗的图片”提示后,反而生成了猫的图片。此外,黑客声称经过Nightshade工具“下毒”的图片难以辨别,因为该工具主要影响训练数据集的“特征空间”。来源:https://www.ithome.com/0/727/542.htm投稿:@ZaiHuaBot频道:@TestFlightCN