这个研究有点强的,我们可能获得了另外一种增强Stable Diffusion控制的方法,它允许你使用富文本书写提示词。

这个研究有点强的,我们可能获得了另外一种增强Stable Diffusion控制的方法,它允许你使用富文本书写提示词。 比如指定某个提示词的颜色,例如提示词中有长发这个单词,然后你把长发的文字颜色改成了粉色,那么生成图像的头发颜色就会变成粉色。不只是那种粗略的粉色哦,是带有精确色值的。 下面我们分别来看一下它支持的富文本格式和生效方式: 首先你可以通过字体颜色控制生成对象的颜色,比如下面这张图Hair头发的字体颜色被改成粉色的时候生成图像的头发颜色就会变为粉色。 然后你可以改变对应提示词单词的字体来赋予图像对应的风格,这个就有点意识流了,全看模型对这个字体的感知,比如下面这这张图的guitar吉他的字体如果是比较放松的就会生成彩色的吉他,如果是古朴的手写体吉他就比较有年代感。 最后你可以给对应提示词的单词增加注释对其进行补充说明,比如下方这个例子中的cat被加上了“一只戴着墨镜、脖子上围着头巾的猫。”这样的注释在不影响整体画面的情况下猫这个主体准确的生成了注释的内容。你也可以给多个单词都加上这样的注释。 下面看一下这个论文大概的原理: 简单来说他们用了一种方法获得了每一个提示词单词对生成图像影响区域的映射,然后用将富文本的属性拿出来单独针对每个影响的提示词单词的区域再进行降噪操作从而修改扩散模型第一次生成的图像。 好了介绍到这里就结束了,希望早日有大神可以将这种方法集成到SD里面,或者开发出更多地富文本格式。 这里是论文的介绍: 这里你可以试玩这个控制方法:

相关推荐

封面图片

Animationiff-cli-prompt-travel 与 IPadapter(允许图像提示与文本提示混合),提高文本生成

Animationiff-cli-prompt-travel 与 IPadapter(允许图像提示与文本提示混合),提高文本生成视频的一致性。教程正在路上。现在尝试在 LoRA 中与 IPAdapter 混合。 作者: |

封面图片

Stability AI推出Stable Diffusion 3 提示文本理解更好、图像质量更强

Stability AI推出Stable Diffusion 3 提示文本理解更好、图像质量更强 Stable Diffusion 3的参数在8亿80亿之间,也就是说Stable Diffusion 3可能是专为移动设备开发的,AI算力消耗将更低,推理速度却更快。目前,Stable Diffusion 3支持申请使用,未来会扩大测试范围。申请地址: Diffusion 3的技术内容,但指出其核心架构使用了Transformer和Flow FMatching(简称“FM”)。Transformer大家都很熟悉了,ChatGPT、T5 、BERT等很多著名模型都是基于该架构开发的。而FM是Meta AI和魏茨曼科学研究所在2022年10月发布的,一种全新高效建模、训练技术概念。Flow Matching论文地址: Matching简单介绍目前,很多文生图模型使用的是CNF(连续正规化流动)训练方法,主要使用常微分方程对流动进行建模,实现从一种已知分布到目标分布的平滑映射。但由于训练过程需要进行大量的微分方程模拟,会导致算力成本高、模型设计复杂、可解释性差等缺点。FM则是放弃微分方程的直接模拟,而是通过回归固定条件概率轨迹来实现无模拟训练。研究人员设计了条件概率分布与向量场的概念,利用边缘分布的结合可以建立总体目标概率轨迹与向量场,从而消除了模拟过程对梯度计算的影响。1)条件概率路径构建:FM需要给出一个目标概率路径,该路径从简单分布演变到逼近数据分布。然后利用条件概率路径构建了目标路径,这样每个样本有一个对应的条件路径。2)变换层:构成FM的基本单元,每个变换层都是可逆的。这意味着从输入到输出的每一步映射都可以精确地反转,从而允许从目标分布反推到原始分布。3)耦合层:将输入分成两部分,对其中一部分应用变换,而变换函数可以是任意的神经网络,其参数由另一部分决定,保证了变换的可逆性。目前,FM技术已在图像生成与超分辨率、图像理解、图像修复与填充、条件图像生成、图像风格迁移与合成、视频处理等领域得到广泛应用。Stable Diffusion 3案例展示本次的发布页面也是由Stable Diffusion 3生成的,提示词:史诗般的动漫艺术风格,一位巫师站在夜间的山顶上,向黑暗的天空施放咒语,上面写着由彩色能量生成的“Stable Diffusion 3”文字教室桌子上有一个红苹果,电影风格,背景的黑板上用粉笔写着“要么做大,要么回家”一名宇航员骑着一只穿着蓬蓬裙的猪,撑着一把粉色的伞,猪旁边的地上有一只戴着高帽的知更鸟,角落里写着"Stable Diffusion"的字样。一只变色龙,黑色背景,摄影风格。一辆跑车的夜间照片,侧面写有“SD3”字样,汽车在赛道上高速行驶,巨大的路标上写着“更快”的文字。波浪冲击苏格兰灯塔的鱼眼镜头照片,黑色波浪。 ... PC版: 手机版:

封面图片

Lexica在线Stable Diffusion prompt,文本生成图像搜索引擎,文本生成图像检索的平台,Lexica目前包

Lexica 在线Stable Diffusion prompt,文本生成图像搜索引擎,文本生成图像检索的平台,Lexica目前包含1000W+ 张由 Stable Diffusion 模型生成的网络图片和提示语prompt,这些prompt描述语可以直接复制,搜索的时候只需要输入关键词,就能查看它相关的网络用户创作艺术图

封面图片

Image to Prompt,一个根据图片生成Stable Diffusion提示词的网站,支持PNG和JPG格式的图片,最大

Image to Prompt,一个根据图片生成Stable Diffusion提示词的网站,支持PNG和JPG格式的图片,最大支持4MB,上传图片后点击Generate prompt,稍等片刻即可生成Stable Diffusion提示词,可以直接复制使用。 AI根据图片生成提示词 Image to Prompt:

封面图片

RPG-DiffusionMaster是一个全新的无需训练的文本到图像生成/编辑框架,利用多模态LLM的链式推理能力增强文本到图

RPG-DiffusionMaster是一个全新的无需训练的文本到图像生成/编辑框架,利用多模态LLM的链式推理能力增强文本到图像扩散模型的组合性。 该框架采用MLLM作为全局规划器,将复杂图像生成过程分解为多个子区域内的简单生成任务。同时提出了互补的区域扩散以实现区域化的组合生成。此外,在提出的RPG框架中闭环地集成了文本引导的图像生成和编辑,从而增强了泛化能力。 大量实验证明,RPG-DiffusionMaster在多类别对象组合和文本-图像语义对齐方面优于DALL-E 3和SDXL等最先进的文本到图像扩散模型。特别地,RPG框架与各种MLLM架构(例如MiniGPT-4)和扩散骨干(例如ControlNet)兼容性广泛。 需求人群: "RPG-DiffusionMaster可用于文本到图像生成和编辑,特别擅长处理复杂的文本提示和多对象多属性关系。" 使用场景示例: 使用RPG-DiffusionMaster生成包含多个对象的图像 利用RPG-DiffusionMaster编辑图像以实现文本语义对齐 采用RPG-DiffusionMaster进行文本到图像生成的实验 产品特色: 利用多模态LLM进行全局规划 将复杂图像生成过程分解为简单生成任务 实现区域化的组合生成 闭环集成文本引导的图像生成和编辑 提高泛化能力 优于其他文本到图像扩散模型 | #框架

封面图片

Stability AI发布最新图像生成模型Stable Diffusion XL 1.0

Stability AI发布最新图像生成模型Stable Diffusion XL 1.0 今天,Stability AI 宣布推出 Stable Diffusion XL 1.0,这是该公司迄今为止描述为“最先进”的文本到图像模型。Stable Diffusion XL 1.0 可在上以开源形式使用,并提供给 Stability 的和消费者应用程序和 。Stability 声称,与其前代产品相比,Stable Diffusion XL 1.0 提供了“更生动”和“更准确”的颜色,更好的对比度、阴影和照明效果。 在接受采访时,Stability AI 的应用机器学习负责人Joe Penna 指出,Stable Diffusion XL 1.0 包含 35亿个参数,可以“在几秒钟内”生成多种长宽比的 100万像素分辨率的完整图像。“参数”是模型从训练数据中学习到的部分,基本上定义了模型在解决问题上的技能水平。 上一代稳定扩散模型稳定扩散 XL 0.9 也可以生成更高分辨率的图像,但需要更多的计算能力。 、

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人