Google推出新图像控制方式 可在StableDiffusion图像生成中保证内容特征一致性

Google推出新图像控制方式可在StableDiffusion图像生成中保证内容特征一致性论文地址:https://arxiv.org/pdf/2311.10093.pdf这项技术的实现方法包括三个步骤。首先是身份聚类,通过生成一系列图像,并将它们嵌入到语义空间中,使用聚类算法将这些图像分组,每个组代表一种可能的角色身份。这个过程旨在识别出一组视觉上一致的图像,从而确定角色的主要视觉特征。接下来是身份提取,一旦确定了一组具有高内聚性的图像,就会在这些图像上训练模型,以提取出更一致的角色身份。这意味着模型将学习到特定角色的关键视觉特征,以便在未来的生成中更准确地重现这些特征。...PC版:https://www.cnbeta.com.tw/articles/soft/1398313.htm手机版:https://m.cnbeta.com.tw/view/1398313.htm

相关推荐

封面图片

卧槽,字节昨天发布这个项目DreamTuner,可以一举解决图像生成中角色一致性的问题。

卧槽,字节昨天发布这个项目DreamTuner,可以一举解决图像生成中角色一致性的问题。效果也太好了,可以将输入图片的角色在生成新图是完美保留,并且融合度非常好,这下小说、漫画和视频的人物一致性和商品一致性问题彻底解决了。并且可以和ContorlNet联动确保动画的稳定,间接实现了前段时间的让单张图片动起来的功能。项目简介:我们提出了一种新颖的方法DreamTurner,该方法将定制主题的参考信息从粗到细注入。首先提出了一个主题编码器,用于粗略主题身份保留,通过额外的注意力层在视觉-文本交叉注意力之前引入了压缩的一般主题特征。然后,注意到预训练的文本到图像模型中的自注意力层自然地执行了详细的空间上下文关联功能,我们将其修改为自主题注意力层,以细化目标主题的细节,生成的图像从参考图像和自身查询详细特征。值得强调的是,自主题注意力是一种优雅、有效且无需训练的方法,用于保持定制概念的详细特征,可在推断过程中作为即插即用的解决方案。最后,通过对单个图像进行额外微调,DreamTurner在受主题驱动的图像生成方面取得了显著的表现,可由文本或其他条件(如姿势)进行控制。项目地址:https://dreamtuner-diffusion.github.io/

封面图片

Midjourney推出了角色一致性功能!--cref参数使用Midjourney推出了角色一致性功能“CharacterRef

Midjourney推出了角色一致性功能!--cref参数使用Midjourney推出了角色一致性功能“CharacterReference”(角色参考)!这个功能可以帮助用户在不同场景或不同图片中创作出外观和特征一致的角色形象。与之前推出的“StyleReference”(风格参考)功能类似,“CharacterReference”也是通过匹配参考图片来生成新的图像。但不同之处在于,CharacterReference专注于匹配参考图片中角色的特征,如面部、发型和服装等,而不是整体风格。

封面图片

StoryDiffusion 是一个开源的图像和视频生成模型,它通过一致自注意力机制和运动预测器,能够生成连贯的长序列图像和

StoryDiffusion是一个开源的图像和视频生成模型,它通过一致自注意力机制和运动预测器,能够生成连贯的长序列图像和视频。这个模型的主要优点在于它能够生成具有角色一致性的图像,并且可以扩展到视频生成,为用户提供了一个创造长视频的新方法。该模型对AI驱动的图像和视频生成领域有积极的影响,并且鼓励用户负责任地使用该工具。使用场景示例:使用StoryDiffusion生成一系列漫画风格的图像。创建一个基于文本提示的长视频,展示一个连贯的故事。利用StoryDiffusion进行角色设计和场景布局的预可视化。产品特色:一致自注意力机制:生成长序列中的角色一致图像。运动预测器:在压缩的图像语义空间中预测运动,实现更大的运动预测。漫画生成:利用一致自注意力机制生成的图像,无缝过渡创建视频。图像到视频的生成:提供用户输入的条件图像序列来生成视频。两阶段长视频生成:结合两个部分生成非常长且高质量的AIGC视频。条件图像使用:图像到视频模型可以通过提供一系列用户输入的条件图像来生成视频。短视频生成:提供快速的视频生成结果。

封面图片

终于来了! Midjourney角色一致性功能发布.

终于来了!Midjourney角色一致性功能发布.下面视频是网站的使用方法和介绍:这个功能和之前的风格参照很相似,不同之处在于它不是匹配一个特定风格,而是让角色与给定的角色参照图像相符合。如何使用:在你输入的指令后面加上--crefURL,URL是你选择的角色图像的链接。你还可以用--cw来调整参照的“强度”,范围从100到0。默认的强度是100(--cw100),这时会参考人物的脸部、发型和衣着。如果设置为强度0(--cw0),那么系统只会关注脸部(这对于更换服饰或发型很有帮助)。适用范围:这个功能最适合用于Midjourney创作的角色图像。不太适合用于真人照片(可能会产生一些扭曲,就像普通图像提示那样)。Cref的工作方式类似于普通图像提示,但它更专注于角色的特征。但请注意,这项技术的精确度是有限的,它无法复制极其细微的特征,比如特定的酒窝、雀斑或T恤上的标志。Cref同样适用于Niji和普通MJ模型,并且可以与--sref一起使用。高级功能:你可以使用多个URL,通过--crefURL1URL2的方式来结合多个图像中的角色信息(这和使用多重图像或风格提示类似)。在webalpha版本中如何操作:只需将图片拖动或粘贴到想象工具栏,你会看到三个图标。选择这些图标之一,可以设置图片用作图像提示、风格参照或角色参照。如果你想让一张图像同时用于多个类别,只需按住Shift键再选择。请记住,由于MJV6目前还处于alpha测试阶段,这个和其他功能可能会有所变化。但不久后,我们会推出官方的V6beta版。

封面图片

终于来了! Midjourney角色一致性功能发布.#ai画图#

终于来了!Midjourney角色一致性功能发布.下面视频是网站的使用方法和介绍:这个功能和之前的风格参照很相似,不同之处在于它不是匹配一个特定风格,而是让角色与给定的角色参照图像相符合。如何使用:在你输入的指令后面加上--crefURL,URL是你选择的角色图像的链接。你还可以用--cw来调整参照的“强度”,范围从100到0。默认的强度是100(--cw100),这时会参考人物的脸部、发型和衣着。如果设置为强度0(--cw0),那么系统只会关注脸部(这对于更换服饰或发型很有帮助)。适用范围:这个功能最适合用于Midjourney创作的角色图像。不太适合用于真人照片(可能会产生一些扭曲,就像普通图像提示那样)。Cref的工作方式类似于普通图像提示,但它更专注于角色的特征。但请注意,这项技术的精确度是有限的,它无法复制极其细微的特征,比如特定的酒窝、雀斑或T恤上的标志。Cref同样适用于Niji和普通MJ模型,并且可以与--sref一起使用。高级功能:你可以使用多个URL,通过--crefURL1URL2的方式来结合多个图像中的角色信息(这和使用多重图像或风格提示类似)。在webalpha版本中如何操作:只需将图片拖动或粘贴到想象工具栏,你会看到三个图标。选择这些图标之一,可以设置图片用作图像提示、风格参照或角色参照。如果你想让一张图像同时用于多个类别,只需按住Shift键再选择。请记住,由于MJV6目前还处于alpha测试阶段,这个和其他功能可能会有所变化。但不久后,我们会推出官方的V6beta版。

封面图片

华为发布 DiT 架构的图像生成模型,可以直出 4K 分辨率图像。#ai画图#

华为发布DiT架构的图像生成模型,可以直出4K分辨率图像。论文简介:我们引入了PixArt-\Sigma,一个能够直接生成4K分辨率图像的DiffusionTransformer(DiffusionTransformer,DiT)模型。相比其前身PixArt-\alpha,PixArt-\Sigma有了显著进步,提供了明显更高保真度的图像,并改进了与文本提示的一致性。PixArt-\Sigma的一个关键特点是其训练效率。借助PixArt-\alpha的基础预训练,它通过合并更高质量的数据,从"较弱"的基线演变为"较强"的模型,我们将这个过程称为"弱到强训练"。PixArt-\Sigma的进步主要体现在两个方面:高质量训练数据:PixArt-\Sigma结合了更高质量的图像数据,与更精确和详细的图像标题配对。高效的Token压缩:我们在DiT框架内提出了一个新的注意力模块,可以压缩键(Key)和值(Value),显著提高效率,并促进超高分辨率图像生成。得益于这些改进,PixArt-\Sigma以显著较小的模型规模(6亿参数)实现了优于现有文本到图像扩散模型(如SDXL(26亿参数)和SDCascade(51亿参数))的图像质量和用户提示遵从能力。此外,PixArt-\Sigma生成4K图像的能力支持创建高分辨率海报和壁纸,有效地增强了电影和游戏等行业中高质量视觉内容的制作。项目地址:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人