这个研究有点强的,我们可能获得了另外一种增强Stable Diffusion控制的方法,它允许你使用富文本书写提示词。
这个研究有点强的,我们可能获得了另外一种增强Stable Diffusion控制的方法,它允许你使用富文本书写提示词。 比如指定某个提示词的颜色,例如提示词中有长发这个单词,然后你把长发的文字颜色改成了粉色,那么生成图像的头发颜色就会变成粉色。不只是那种粗略的粉色哦,是带有精确色值的。 下面我们分别来看一下它支持的富文本格式和生效方式: 首先你可以通过字体颜色控制生成对象的颜色,比如下面这张图Hair头发的字体颜色被改成粉色的时候生成图像的头发颜色就会变为粉色。 然后你可以改变对应提示词单词的字体来赋予图像对应的风格,这个就有点意识流了,全看模型对这个字体的感知,比如下面这这张图的guitar吉他的字体如果是比较放松的就会生成彩色的吉他,如果是古朴的手写体吉他就比较有年代感。 最后你可以给对应提示词的单词增加注释对其进行补充说明,比如下方这个例子中的cat被加上了“一只戴着墨镜、脖子上围着头巾的猫。”这样的注释在不影响整体画面的情况下猫这个主体准确的生成了注释的内容。你也可以给多个单词都加上这样的注释。 下面看一下这个论文大概的原理: 简单来说他们用了一种方法获得了每一个提示词单词对生成图像影响区域的映射,然后用将富文本的属性拿出来单独针对每个影响的提示词单词的区域再进行降噪操作从而修改扩散模型第一次生成的图像。 好了介绍到这里就结束了,希望早日有大神可以将这种方法集成到SD里面,或者开发出更多地富文本格式。 这里是论文的介绍: 这里你可以试玩这个控制方法:
在Telegram中查看相关推荐

🔍 发送关键词来寻找群组、频道或视频。
启动SOSO机器人