AnyDoor :可以将任何对象巧妙的放入到新的图像、视频场景中
AnyDoor :可以将任何对象巧妙的放入到新的图像、视频场景中
它是一种基于扩散的图像生成器,可以将目标对象(例如,人、动物、物品等)在用户指定的位置以和谐的方式传送到新的场景中。
如果你有一个视频,视频中的场景是一个空荡荡的房间,你可以将一个沙发或者一张桌子传送到这个房间中。
这个模型在训练过程中学到了如何描述和理解对象的一般特性,而不是特定对象的特性。这种能力被称为“零射击”泛化,意味着模型可以处理在训练数据中没有出现过的新对象。所以它只需要训练一次,然后就可以应用到各种不同的对象和场景组合上。
为了实现这个目标,AnyDoor 使用了一种名为“细节特征”的技术。这种特征可以保留对象的纹理细节,同时允许对象在不同的环境中进行局部变化,例如照明、方向和姿势等。这使得对象可以和新的场景自然地融合。
此外,AnyDoor 还使用了一种从视频数据集中借用知识的方法。在视频数据集中,可以观察到单个对象在时间轴上的各种形式,这有助于提高模型的泛化能力和鲁棒性。
实验结果表明,AnyDoor 的性能优于现有的方法,并且在实际应用中具有巨大的潜力,例如虚拟试穿和对象移动等。
|| #生成器