卧槽 MagicClothing 这个AI 换装的演示效果有点强啊。

卧槽 MagicClothing 这个AI 换装的演示效果有点强啊。 而且还可以与 ControlNet 和 IP-Adapter 等其他技术结合使用。还是开源的,期待对应的 ComfUI 节点。 详细介绍: 推出了一种名为 Magic Clothing 的新型网络架构,它基于潜在扩散模型(LDM)进行开发,专门处理一项新的图像合成任务服装驱动的图像合成。 该系统旨在生成根据不同文本提示定制的、穿着特定服装的角色。在这一过程中,图像的可控性至关重要,主要是要确保服装的细节得以保留,并且生成的图像要忠实于文本提示。 为了实现这一点,我们开发了一种服装特征提取器,用以详细捕捉服装的特征,并通过自注意力融合技术,将这些特征有效整合到预训练好的LDMs中,确保目标角色的服装细节不发生改变。 同时,我们还使用了一种称为联合无分类器指导的技术,以平衡服装特征和文本提示在生成图像中的影响。 此外,我们提出的服装提取器是一个可插拔模块,可以应用于多种经过微调的LDMs,并能与 ControlNet 和 IP-Adapter 等其他技术结合使用,进一步提高生成角色的多样性和可控性。 我们还开发了一种名为匹配点LPIPS(MP-LPIPS)的新型评估指标,用于评价生成图像与原始服装之间的一致性。 论文地址:

相关推荐

封面图片

Stability AI产量很高啊,推出了一个新的 AI 图像生成模型Stable Cascade,还会发布对应的微调、Cont

Stability AI产量很高啊,推出了一个新的 AI 图像生成模型Stable Cascade,还会发布对应的微调、ControlNet 和 LoRA 训练的脚本。 这个模型基于Würstchen架构,可以显著降低模型训练的算力成本,比 SD2.1 的算力成本降低了 10 倍左右。另外推理速度会比现有的 SD 模型快一倍左右。 更多功能: 除了标准的文本到图像生成之外,Stable Cascade 还可以执行图像变化和图像到图像生成。 会跟随模型一起发布的 Controlnet: 局部重绘:输入与文本提示附带的蒙版配对的图像。该模型根据提供的文本提示填充图像的遮罩部分。 Canny Edge:通过跟踪输入到模型的现有图像的边缘来生成新图像。该测试也可以从草图进行扩展。 2x超分辨率:也可用于C阶段生成的潜在空间。 了解更多:

封面图片

Stability AI正式发布了他们从文字生成动画的工具Stable Animation,感觉效果和能力类似于Gen-1,主要

Stability AI正式发布了他们从文字生成动画的工具Stable Animation,感觉效果和能力类似于Gen-1,主要包括下面三种能力: 文本到动画:用户输入文本提示(与 Stable Diffusion 一样)并调整各种参数以生成动画。 文本输入+初始图像输入:用户提供初始图像作为动画的起点。文本提示与图像结合使用以产生最终输出动画。 输入视频 + 文本输入:用户提供初始视频作为动画的基础。通过调整各种参数,获得了最终的输出动画,该动画还由文本提示引导。

封面图片

这个研究有点强的,我们可能获得了另外一种增强Stable Diffusion控制的方法,它允许你使用富文本书写提示词。

这个研究有点强的,我们可能获得了另外一种增强Stable Diffusion控制的方法,它允许你使用富文本书写提示词。 比如指定某个提示词的颜色,例如提示词中有长发这个单词,然后你把长发的文字颜色改成了粉色,那么生成图像的头发颜色就会变成粉色。不只是那种粗略的粉色哦,是带有精确色值的。 下面我们分别来看一下它支持的富文本格式和生效方式: 首先你可以通过字体颜色控制生成对象的颜色,比如下面这张图Hair头发的字体颜色被改成粉色的时候生成图像的头发颜色就会变为粉色。 然后你可以改变对应提示词单词的字体来赋予图像对应的风格,这个就有点意识流了,全看模型对这个字体的感知,比如下面这这张图的guitar吉他的字体如果是比较放松的就会生成彩色的吉他,如果是古朴的手写体吉他就比较有年代感。 最后你可以给对应提示词的单词增加注释对其进行补充说明,比如下方这个例子中的cat被加上了“一只戴着墨镜、脖子上围着头巾的猫。”这样的注释在不影响整体画面的情况下猫这个主体准确的生成了注释的内容。你也可以给多个单词都加上这样的注释。 下面看一下这个论文大概的原理: 简单来说他们用了一种方法获得了每一个提示词单词对生成图像影响区域的映射,然后用将富文本的属性拿出来单独针对每个影响的提示词单词的区域再进行降噪操作从而修改扩散模型第一次生成的图像。 好了介绍到这里就结束了,希望早日有大神可以将这种方法集成到SD里面,或者开发出更多地富文本格式。 这里是论文的介绍: 这里你可以试玩这个控制方法:

封面图片

卧槽,字节昨天发布这个项目DreamTuner,可以一举解决图像生成中角色一致性的问题。

卧槽,字节昨天发布这个项目DreamTuner,可以一举解决图像生成中角色一致性的问题。 效果也太好了,可以将输入图片的角色在生成新图是完美保留,并且融合度非常好,这下小说、漫画和视频的人物一致性和商品一致性问题彻底解决了。 并且可以和ContorlNet联动确保动画的稳定,间接实现了前段时间的让单张图片动起来的功能。 项目简介: 我们提出了一种新颖的方法DreamTurner,该方法将定制主题的参考信息从粗到细注入。首先提出了一个主题编码器,用于粗略主题身份保留,通过额外的注意力层在视觉-文本交叉注意力之前引入了压缩的一般主题特征。 然后,注意到预训练的文本到图像模型中的自注意力层自然地执行了详细的空间上下文关联功能,我们将其修改为自主题注意力层,以细化目标主题的细节,生成的图像从参考图像和自身查询详细特征。 值得强调的是,自主题注意力是一种优雅、有效且无需训练的方法,用于保持定制概念的详细特征,可在推断过程中作为即插即用的解决方案。 最后,通过对单个图像进行额外微调,DreamTurner 在受主题驱动的图像生成方面取得了显著的表现,可由文本或其他条件(如姿势)进行控制。 项目地址:

封面图片

Stability AI 开源 StableStudio

Stability AI 开源 StableStudio 这是一个开源的 AI 图像生成平台,作为 DreamStudio 的开源版实现,StableStudio可在线完成 AI 图像生成、编辑、修复等工作。 未来还将加入 AI 聊天机器人、插件系统、桌面应用、WebGPU 本地推理、ControlNet 工具等新特性! StableStudio 默认用的是最新的图像生成模型 Stabile Diffusion XL (SDXL),一个为企业客户打造的最新图像生成模型,擅长生成更加真实的照片级图像。 SDXL 能够产生比其前身 Stable Diffusion 2.1 更为详细的图像和构图,并具备以下功能: - 更优秀的照片写实功能; - 增强的图像合成和人脸生成; - 丰富的视觉效果和令人惊叹的美学; - 使用较短的提示来创建描述性图像; - 生成清晰文本的能力更强。 除了基于文本生成图像,SDXL 还支持图生图、图像修复、图像风格扩展等功能。来源 , 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

Google Cloud宣布,其最新的图像生成技术Imagen 2 on Vertex AI已经正式上线,为Vertex AI客

Google Cloud宣布,其最新的图像生成技术Imagen 2 on Vertex AI已经正式上线,为Vertex AI客户提供服务。这一技术是Google Cloud图像生成能力的重大升级,采用了先进的文本到图像技术,为开发者提供了全面的定制化工具、完全托管的基础设施以及内置的隐私和安全功能。 Imagen 2 on Vertex AI基于Google DeepMind技术的研发成果,实现了显著提升的图像质量,并提供了一系列功能,使开发者能够根据其特定用例创建图像,包括: -从自然语言提示生成高质量、逼真、高分辨率、美观的图像 -支持多语言的文本渲染,以创建带有准确文本叠加的图像 -生成公司或产品标识并将其叠加在图像中的Logo -实现视觉问答,从图像生成描述性标题,并对图像细节的问题提供信息性文本回答 此外,Imagen 2 on Vertex AI的适用性扩展得更广,包括以下新功能: -高质量图像:Imagen 2通过改进的图像+文本理解和多种创新训练和建模技术,可以实现准确、高质量、逼真的输出 -文本渲染支持:Imagen 2能够解决文本到图像技术常常存在的问题,确保输出图像中正确呈现所需的词语或短语,帮助组织在品牌和信息传递方面实现更深层次控制 -Logo生成:Imagen 2可以为企业、品牌和产品生成各种创意和逼真的Logo,包括徽标、字母标志和抽象标志,并具备将这些Logo叠加到产品、服装、名片和其他表面的能力 -图片描述和问答:Imagen 2的增强图像理解能力使客户能够创建描述性的长篇文字说明,并获得关于图像细节问题的详细答案 -多语言提示:除了英语,Imagen 2还支持六种其他语言(中文、印地语、日语、韩语、葡萄牙语、西班牙语)的预览版本,并计划在2024年初发布更多语言的支持。此功能包括在提示和输出之间进行翻译的能力,例如,用西班牙语提示但指定输出应为葡萄牙语 -安全性:Imagen 2包含内置的安全预防措施,确保生成的图像符合Google的负责任人工智能原则。如,Imagen 2与我们的实验性数字水印服务集成,由Google DeepMind的SynthID提供支持,允许授权访问的客户生成隐形水印并验证Imagen生成的图像。Imagen 2还包含全面的安全过滤器,帮助防止生成潜在有害内容 标签: #Google #AI 频道: @GodlyNews1 投稿: @GodlyNewsBot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人