卧槽 MagicClothing 这个AI 换装的演示效果有点强啊。

卧槽MagicClothing这个AI换装的演示效果有点强啊。而且还可以与ControlNet和IP-Adapter等其他技术结合使用。还是开源的,期待对应的ComfUI节点。详细介绍:推出了一种名为MagicClothing的新型网络架构,它基于潜在扩散模型(LDM)进行开发,专门处理一项新的图像合成任务——服装驱动的图像合成。该系统旨在生成根据不同文本提示定制的、穿着特定服装的角色。在这一过程中,图像的可控性至关重要,主要是要确保服装的细节得以保留,并且生成的图像要忠实于文本提示。为了实现这一点,我们开发了一种服装特征提取器,用以详细捕捉服装的特征,并通过自注意力融合技术,将这些特征有效整合到预训练好的LDMs中,确保目标角色的服装细节不发生改变。同时,我们还使用了一种称为联合无分类器指导的技术,以平衡服装特征和文本提示在生成图像中的影响。此外,我们提出的服装提取器是一个可插拔模块,可以应用于多种经过微调的LDMs,并能与ControlNet和IP-Adapter等其他技术结合使用,进一步提高生成角色的多样性和可控性。我们还开发了一种名为匹配点LPIPS(MP-LPIPS)的新型评估指标,用于评价生成图像与原始服装之间的一致性。论文地址:https://arxiv.org/abs/2404.09512

相关推荐

封面图片

这个研究有点强的,我们可能获得了另外一种增强Stable Diffusion控制的方法,它允许你使用富文本书写提示词。

这个研究有点强的,我们可能获得了另外一种增强StableDiffusion控制的方法,它允许你使用富文本书写提示词。比如指定某个提示词的颜色,例如提示词中有长发这个单词,然后你把长发的文字颜色改成了粉色,那么生成图像的头发颜色就会变成粉色。不只是那种粗略的粉色哦,是带有精确色值的。下面我们分别来看一下它支持的富文本格式和生效方式:首先你可以通过字体颜色控制生成对象的颜色,比如下面这张图Hair头发的字体颜色被改成粉色的时候生成图像的头发颜色就会变为粉色。然后你可以改变对应提示词单词的字体来赋予图像对应的风格,这个就有点意识流了,全看模型对这个字体的感知,比如下面这这张图的guitar吉他的字体如果是比较放松的就会生成彩色的吉他,如果是古朴的手写体吉他就比较有年代感。最后你可以给对应提示词的单词增加注释对其进行补充说明,比如下方这个例子中的cat被加上了“一只戴着墨镜、脖子上围着头巾的猫。”这样的注释在不影响整体画面的情况下猫这个主体准确的生成了注释的内容。你也可以给多个单词都加上这样的注释。下面看一下这个论文大概的原理:简单来说他们用了一种方法获得了每一个提示词单词对生成图像影响区域的映射,然后用将富文本的属性拿出来单独针对每个影响的提示词单词的区域再进行降噪操作从而修改扩散模型第一次生成的图像。好了介绍到这里就结束了,希望早日有大神可以将这种方法集成到SD里面,或者开发出更多地富文本格式。这里是论文的介绍:https://rich-text-to-image.github.io/这里你可以试玩这个控制方法:https://huggingface.co/spaces/songweig/rich-text-to-image

封面图片

卧槽,字节昨天发布这个项目DreamTuner,可以一举解决图像生成中角色一致性的问题。

卧槽,字节昨天发布这个项目DreamTuner,可以一举解决图像生成中角色一致性的问题。效果也太好了,可以将输入图片的角色在生成新图是完美保留,并且融合度非常好,这下小说、漫画和视频的人物一致性和商品一致性问题彻底解决了。并且可以和ContorlNet联动确保动画的稳定,间接实现了前段时间的让单张图片动起来的功能。项目简介:我们提出了一种新颖的方法DreamTurner,该方法将定制主题的参考信息从粗到细注入。首先提出了一个主题编码器,用于粗略主题身份保留,通过额外的注意力层在视觉-文本交叉注意力之前引入了压缩的一般主题特征。然后,注意到预训练的文本到图像模型中的自注意力层自然地执行了详细的空间上下文关联功能,我们将其修改为自主题注意力层,以细化目标主题的细节,生成的图像从参考图像和自身查询详细特征。值得强调的是,自主题注意力是一种优雅、有效且无需训练的方法,用于保持定制概念的详细特征,可在推断过程中作为即插即用的解决方案。最后,通过对单个图像进行额外微调,DreamTurner在受主题驱动的图像生成方面取得了显著的表现,可由文本或其他条件(如姿势)进行控制。项目地址:https://dreamtuner-diffusion.github.io/

封面图片

Stability AI正式发布了他们从文字生成动画的工具Stable Animation,感觉效果和能力类似于Gen-1,主要

StabilityAI正式发布了他们从文字生成动画的工具StableAnimation,感觉效果和能力类似于Gen-1,主要包括下面三种能力:文本到动画:用户输入文本提示(与StableDiffusion一样)并调整各种参数以生成动画。文本输入+初始图像输入:用户提供初始图像作为动画的起点。文本提示与图像结合使用以产生最终输出动画。输入视频+文本输入:用户提供初始视频作为动画的基础。通过调整各种参数,获得了最终的输出动画,该动画还由文本提示引导。https://m.okjike.com/originalPosts/645d1483fd7c4754e60eb9f6?s=ewoidSI6ICI1NWY5Mzg0ZjVmMDJjYTE1MDA3YzA4NTMiCn0=

封面图片

Stability AI 开源 StableStudio

StabilityAI开源StableStudio这是一个开源的AI图像生成平台,作为DreamStudio的开源版实现,StableStudio可在线完成AI图像生成、编辑、修复等工作。未来还将加入AI聊天机器人、插件系统、桌面应用、WebGPU本地推理、ControlNet工具等新特性!StableStudio默认用的是最新的图像生成模型StabileDiffusionXL(SDXL),一个为企业客户打造的最新图像生成模型,擅长生成更加真实的照片级图像。SDXL能够产生比其前身StableDiffusion2.1更为详细的图像和构图,并具备以下功能:-更优秀的照片写实功能;-增强的图像合成和人脸生成;-丰富的视觉效果和令人惊叹的美学;-使用较短的提示来创建描述性图像;-生成清晰文本的能力更强。除了基于文本生成图像,SDXL还支持图生图、图像修复、图像风格扩展等功能。来源,https://github.com/Stability-AI/StableStudio来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

封面图片

不到 15 秒,高通演示首次在安卓机型上使用 Stable Diffusion 生成 AI 图像

不到15秒,高通演示首次在安卓机型上使用StableDiffusion生成AI图像高通在其官方YouTube频道发布了一段视频,首次成功在安卓手机上使用StableDiffusion来生成AI图像,整个生成时间不超过15秒。高通表示这是全球首次在安卓设备上进行演示。StableDiffusion是一种非常流行的基础模型,它是一种文本到图像的生成AI模型,能够在几十秒内根据任何文本输入创建逼真的图像。StableDiffusion的参数超过10亿个,目前主要依靠云端运行。高通的本次演示主要利用了安卓设备上的QualcommAIStack,可以在安卓设备上运行StableDiffusion。高通在演示视频中,从HuggingFace的FP32版本1-5开源模型开始,通过量化、编译和硬件加速等优化流程,使其能够在搭载骁龙8Gen2移动平台的手机上运行。()()投稿:@ZaiHuabot频道:@TestFlightCN

封面图片

知网 AI 生成文本检测专利公布 可检测文本是否为 AI 生成

知网AI生成文本检测专利公布可检测文本是否为AI生成天眼查App显示,近日,同方知网数字出版技术股份有限公司申请的“一种AI生成文本的检测方法、装置、介质及设备”专利公布。摘要显示,通过将待检测文本输入文本分类模型,得到文本为AI生成的第一概率值;基于待检测文本及目标损失函数,得到文本的偏离度特征;基于待检测文本、预测模型及预设字典,得到文本的扩散度特征值;基于待检测文本,得到文本的句子长度特征及字词分布特征;根据上述第一概率值、偏离度特征、扩散度特征值、句子长度特征及字词分布特征,判定文本是否为AI生成文本。该专利不仅检测效率高,且不受审核人员的主观影响,检测结果更加准确。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人