这个研究有点强的,我们可能获得了另外一种增强Stable Diffusion控制的方法,它允许你使用富文本书写提示词。

这个研究有点强的,我们可能获得了另外一种增强StableDiffusion控制的方法,它允许你使用富文本书写提示词。比如指定某个提示词的颜色,例如提示词中有长发这个单词,然后你把长发的文字颜色改成了粉色,那么生成图像的头发颜色就会变成粉色。不只是那种粗略的粉色哦,是带有精确色值的。下面我们分别来看一下它支持的富文本格式和生效方式:首先你可以通过字体颜色控制生成对象的颜色,比如下面这张图Hair头发的字体颜色被改成粉色的时候生成图像的头发颜色就会变为粉色。然后你可以改变对应提示词单词的字体来赋予图像对应的风格,这个就有点意识流了,全看模型对这个字体的感知,比如下面这这张图的guitar吉他的字体如果是比较放松的就会生成彩色的吉他,如果是古朴的手写体吉他就比较有年代感。最后你可以给对应提示词的单词增加注释对其进行补充说明,比如下方这个例子中的cat被加上了“一只戴着墨镜、脖子上围着头巾的猫。”这样的注释在不影响整体画面的情况下猫这个主体准确的生成了注释的内容。你也可以给多个单词都加上这样的注释。下面看一下这个论文大概的原理:简单来说他们用了一种方法获得了每一个提示词单词对生成图像影响区域的映射,然后用将富文本的属性拿出来单独针对每个影响的提示词单词的区域再进行降噪操作从而修改扩散模型第一次生成的图像。好了介绍到这里就结束了,希望早日有大神可以将这种方法集成到SD里面,或者开发出更多地富文本格式。这里是论文的介绍:https://rich-text-to-image.github.io/这里你可以试玩这个控制方法:https://huggingface.co/spaces/songweig/rich-text-to-image

相关推荐

封面图片

Stability AI推出Stable Diffusion 3 提示文本理解更好、图像质量更强

StabilityAI推出StableDiffusion3提示文本理解更好、图像质量更强StableDiffusion3的参数在8亿——80亿之间,也就是说StableDiffusion3可能是专为移动设备开发的,AI算力消耗将更低,推理速度却更快。目前,StableDiffusion3支持申请使用,未来会扩大测试范围。申请地址:https://stability.ai/stablediffusion3stability.ai没有过多的介绍StableDiffusion3的技术内容,但指出其核心架构使用了Transformer和FlowFMatching(简称“FM”)。Transformer大家都很熟悉了,ChatGPT、T5 、BERT等很多著名模型都是基于该架构开发的。而FM是MetaAI和魏茨曼科学研究所在2022年10月发布的,一种全新高效建模、训练技术概念。FlowMatching论文地址:https://arxiv.org/abs/2210.02747FlowMatching简单介绍目前,很多文生图模型使用的是CNF(连续正规化流动)训练方法,主要使用常微分方程对流动进行建模,实现从一种已知分布到目标分布的平滑映射。但由于训练过程需要进行大量的微分方程模拟,会导致算力成本高、模型设计复杂、可解释性差等缺点。FM则是放弃微分方程的直接模拟,而是通过回归固定条件概率轨迹来实现无模拟训练。研究人员设计了条件概率分布与向量场的概念,利用边缘分布的结合可以建立总体目标概率轨迹与向量场,从而消除了模拟过程对梯度计算的影响。1)条件概率路径构建:FM需要给出一个目标概率路径,该路径从简单分布演变到逼近数据分布。然后利用条件概率路径构建了目标路径,这样每个样本有一个对应的条件路径。2)变换层:构成FM的基本单元,每个变换层都是可逆的。这意味着从输入到输出的每一步映射都可以精确地反转,从而允许从目标分布反推到原始分布。3)耦合层:将输入分成两部分,对其中一部分应用变换,而变换函数可以是任意的神经网络,其参数由另一部分决定,保证了变换的可逆性。目前,FM技术已在图像生成与超分辨率、图像理解、图像修复与填充、条件图像生成、图像风格迁移与合成、视频处理等领域得到广泛应用。StableDiffusion3案例展示本次的发布页面也是由StableDiffusion3生成的,提示词:史诗般的动漫艺术风格,一位巫师站在夜间的山顶上,向黑暗的天空施放咒语,上面写着由彩色能量生成的“StableDiffusion3”文字教室桌子上有一个红苹果,电影风格,背景的黑板上用粉笔写着“要么做大,要么回家”一名宇航员骑着一只穿着蓬蓬裙的猪,撑着一把粉色的伞,猪旁边的地上有一只戴着高帽的知更鸟,角落里写着"StableDiffusion"的字样。一只变色龙,黑色背景,摄影风格。一辆跑车的夜间照片,侧面写有“SD3”字样,汽车在赛道上高速行驶,巨大的路标上写着“更快”的文字。波浪冲击苏格兰灯塔的鱼眼镜头照片,黑色波浪。...PC版:https://www.cnbeta.com.tw/articles/soft/1420259.htm手机版:https://m.cnbeta.com.tw/view/1420259.htm

封面图片

Stable Diffusion XL:dreamstudio

名称:StableDiffusionXL:dreamstudio介绍:StabilityAI宣布推出#StableDiffusionXL1.0,这是该公司迄今为止描述为“最先进”的#文本到图像#模型。StableDiffusionXL1.0可在#GitHub上以开源形式使用。阿喵我试了下,用谷歌登录,送125credits,大概可以免费生成三四次,在配合上面刚推送的的#FLOWGPT的#PROMPTS#提示词,生成了下,还是很不错的链接:

封面图片

Midjourney危险了!Stable Diffusion最强模型SDXL已上线(含保姆级体验教程)!

Midjourney危险了!StableDiffusion最强模型SDXL已上线(含保姆级体验教程)!看到没多少人写sdxl,这里我就给想尝鲜的朋友,写一个如何快速体验SDXL效果的教程。免下载模型,sdxl体验步骤:https://mp.weixin.qq.com/s/Fz7U355XxmkrAztn84CNcA1、sd为什么会搞出sdxl?这次,SD看着营收上亿的Mj,终于坐不住了。它发布了全新模型SDXL1.0,号称是“迄今为止最牛逼的图像生成大模型”。那你肯定好奇,为什么会搞出这样一个产品?很简单,SD看到Mj赚了几个亿坐不住了。我要是sd,我现在大腿都要拍肿了。人家mj十几个人居然搞出来了上亿美元的收入,你sd那么多的人还在亏损???这不对标mj搞出个史诗级的新模型,你家投资人都坐不住了。毕竟,搞研究是要花钱的,这次的sdxl很显然就是冲着后续抢用户+收费来的。2、SDXL体验+测评效果总结根据我的经验,SDXL是一个过渡期的产品,想要尝鲜的朋友一定不要错过。首先要给第一次接触的朋友讲一下,作为一个拥有35亿参数基础模型和66亿参数模型的生物。这个SDXL到底比之前几个版本的sd牛逼在哪里?(1)对撰写提示词的要求大大降低。除了提示词更加精简之外,它的效果主要是体现在不需要质量提升词和负面提示词上。你不需要输入masterpiece这些常见的品质优化词,就可以实现非常棒的画面效果。同样的,你也不必像之前那样输入大量的负面提示词,来控制ai对画面的生成。比如最常见的手部结构出问题,是大家能识别ai的好方法,而现在ai更加能够生成无缺陷的手部结构了。(2)加强了对自然语言的理解能力。这个其实也是为了解决目前撰写提示词上的痛点,比如目前ai绘画的提示词都是一个个用逗号连接起来的词条。而到了SDXL这个版本,即使你输入一连串的自然对话,它也可以理解了。也就是说,写提示词这件事儿,真的会越来越简单了。(3)支持更大尺寸的照片,分辨率高很多。比如你可以直接生成1024x1024大小的图片了。之前你想直接出这类高清图片其实需要使用高清修复或者其他方法才能达到。(4)ai终于会写字了。SDXL已经能识别和生成文字了。

封面图片

谷歌 AI 功能升级,将允许用户根据文本提示直接创建图片

谷歌AI功能升级,将允许用户根据文本提示直接创建图片从本周四开始,谷歌推出利用人工智能驱动的生成搜索体验(SearchGenerativeExperience,简称SGE)创建图像。例如,用户想为一位喜欢烹饪且最喜欢的动物是水豚的朋友制作一张卡片,可以利用该功能搜索类似“画一张戴着厨师帽和烹饪早餐的水豚的图片”,SGE将在结果中提供最多四个生成的图像。用户可以根据搜索结果进一步编辑描述并添加更多细节,将自己的愿景变为现实。以上AI新功能现已加入谷歌的,用户可以通过谷歌应用或Chrome客户端注册并申请体验。来源,频道:@kejiqu群组:@kejiquchat

封面图片

Stable Diffusion 是人工智能公司 Stability AI 背后的文本到图像模型,于 2022 年 8 月发布。

StableDiffusion是人工智能公司StabilityAI背后的文本到图像模型,于2022年8月发布。StabilityAI首席执行官EmadMostaque表示,StableDiffusion在所有渠道拥有超过1000万用户。如果我们推断一下《Midjourney》的数据和趋势,就会发现,通过官方的StableDiffusion渠道,用户每天会生成200万张图片,而在发布一年多的时间里,这个数字已经达到了6.9亿张图像。如果加上其他流行模型(例如Runway,我们单独统计)和StabilityAI的官方渠道,使用StableDiffusion创建的图像数量将增加到125.9亿张,占所有使用文本转文字创建的AI图像的80%。AdobeFireflyAdobeAdobe推出了Firefly,于2023年3月发布。上线6周内,用户创建了超过1亿资产。随着Firefly于2023年5月集成到AdobePhotoshop,考虑到全球使用Photoshop的人数,图像数量呈指数级增长。Adobe在最新的新闻稿中分享了其AI图像统计数据:推出仅3个月,使用AdobeFirefly创建的图像数量就已达到10亿张。使用StableDiffusion、AdobeFirefly、Midjourney和DALLE-2总共生成了超过150亿张人工智能创建的图像。这比Shutterstock的整个照片、矢量图和插图库还要多,而且是Instagram上传的图片数量的三分之一。

封面图片

Stability AI 发布了他们最强的图片生成模型 Stable Diffusion 3 的技术报告,披露了 SD3 的更多

StabilityAI发布了他们最强的图片生成模型StableDiffusion3的技术报告,披露了SD3的更多细节。据他们所说,SD3在排版质量、美学质量和提示词理解上超过了目前所有的开源模型和商业模型,是目前最强的图片生成模型。技术报告要点如下:◆根据人类偏好评估,SD3在排版质量和对提示的理解程度上,均优于目前最先进的文本生成图像系统,例如DALL·E3、Midjourneyv6和Ideogramv1。◆提出了新的多模态扩散Transformer(MultimodalDiffusionTransformer,简称MMDiT)架构,其使用独立的权重集分别表示图像和语言。与SD3的先前版本相比,该架构改善了系统对文本的理解能力和拼写能力。◆SD38B大小的模型可以在GTX409024G显存上运行。◆SD3将发布多个参数规模不等的模型方便在消费级硬件上运行,参数规模从800M到8B。◆SD3架构以DiffusionTransformer(简称"DiT",参见Peebles&Xie,2023)为基础。鉴于文本嵌入和图像嵌入在概念上存在较大差异,我们为这两种模态使用了独立的权重集。◆通过这种方法,信息得以在图像Token和文本Token之间流动,从而提高了模型生成结果的整体理解力和排版质量。我们在论文中还讨论了如何轻松地将这一架构扩展至视频等多模态场景。◆SD3采用了矫正流(RectifiedFlow,简称RF)的公式(Liuetal.,2022;Albergo&Vanden-Eijnden,2022;Lipmanetal.,2023),在训练过程中,数据和噪声被连接在一条线性轨迹上。这导致了更直的推理路径,从而可以使用更少的步骤进行采样。◆扩展矫正流Transformer模型:使用重新加权的RF公式和MMDiT主干网络,对文本到图像的合成任务开展了模型扩展研究。我们训练了一系列模型,其规模从15个。Transformer块(4.5亿参数)到38个块(80亿参数)不等。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人