卧槽,字节昨天发布这个项目DreamTuner,可以一举解决图像生成中角色一致性的问题。

卧槽,字节昨天发布这个项目DreamTuner,可以一举解决图像生成中角色一致性的问题。 效果也太好了,可以将输入图片的角色在生成新图是完美保留,并且融合度非常好,这下小说、漫画和视频的人物一致性和商品一致性问题彻底解决了。 并且可以和ContorlNet联动确保动画的稳定,间接实现了前段时间的让单张图片动起来的功能。 项目简介: 我们提出了一种新颖的方法DreamTurner,该方法将定制主题的参考信息从粗到细注入。首先提出了一个主题编码器,用于粗略主题身份保留,通过额外的注意力层在视觉-文本交叉注意力之前引入了压缩的一般主题特征。 然后,注意到预训练的文本到图像模型中的自注意力层自然地执行了详细的空间上下文关联功能,我们将其修改为自主题注意力层,以细化目标主题的细节,生成的图像从参考图像和自身查询详细特征。 值得强调的是,自主题注意力是一种优雅、有效且无需训练的方法,用于保持定制概念的详细特征,可在推断过程中作为即插即用的解决方案。 最后,通过对单个图像进行额外微调,DreamTurner 在受主题驱动的图像生成方面取得了显著的表现,可由文本或其他条件(如姿势)进行控制。 项目地址:

相关推荐

封面图片

StoryDiffusion 是一个开源的图像和视频生成模型,它通过一致自注意力机制和运动预测器,能够生成连贯的长序列图像和

StoryDiffusion 是一个开源的图像和视频生成模型,它通过一致自注意力机制和运动预测器,能够生成连贯的长序列图像和视频。 这个模型的主要优点在于它能够生成具有角色一致性的图像,并且可以扩展到视频生成,为用户提供了一个创造长视频的新方法。该模型对AI驱动的图像和视频生成领域有积极的影响,并且鼓励用户负责任地使用该工具。 使用场景示例: 使用StoryDiffusion生成一系列漫画风格的图像。 创建一个基于文本提示的长视频,展示一个连贯的故事。 利用StoryDiffusion进行角色设计和场景布局的预可视化。 产品特色: 一致自注意力机制:生成长序列中的角色一致图像。 运动预测器:在压缩的图像语义空间中预测运动,实现更大的运动预测。 漫画生成:利用一致自注意力机制生成的图像,无缝过渡创建视频。 图像到视频的生成:提供用户输入的条件图像序列来生成视频。 两阶段长视频生成:结合两个部分生成非常长且高质量的AIGC视频。 条件图像使用:图像到视频模型可以通过提供一系列用户输入的条件图像来生成视频。 短视频生成:提供快速的视频生成结果。 |

封面图片

卧槽 MagicClothing 这个AI 换装的演示效果有点强啊。

卧槽 MagicClothing 这个AI 换装的演示效果有点强啊。 而且还可以与 ControlNet 和 IP-Adapter 等其他技术结合使用。还是开源的,期待对应的 ComfUI 节点。 详细介绍: 推出了一种名为 Magic Clothing 的新型网络架构,它基于潜在扩散模型(LDM)进行开发,专门处理一项新的图像合成任务服装驱动的图像合成。 该系统旨在生成根据不同文本提示定制的、穿着特定服装的角色。在这一过程中,图像的可控性至关重要,主要是要确保服装的细节得以保留,并且生成的图像要忠实于文本提示。 为了实现这一点,我们开发了一种服装特征提取器,用以详细捕捉服装的特征,并通过自注意力融合技术,将这些特征有效整合到预训练好的LDMs中,确保目标角色的服装细节不发生改变。 同时,我们还使用了一种称为联合无分类器指导的技术,以平衡服装特征和文本提示在生成图像中的影响。 此外,我们提出的服装提取器是一个可插拔模块,可以应用于多种经过微调的LDMs,并能与 ControlNet 和 IP-Adapter 等其他技术结合使用,进一步提高生成角色的多样性和可控性。 我们还开发了一种名为匹配点LPIPS(MP-LPIPS)的新型评估指标,用于评价生成图像与原始服装之间的一致性。 论文地址:

封面图片

Animationiff-cli-prompt-travel 与 IPadapter(允许图像提示与文本提示混合),提高文本生成

Animationiff-cli-prompt-travel 与 IPadapter(允许图像提示与文本提示混合),提高文本生成视频的一致性。教程正在路上。现在尝试在 LoRA 中与 IPAdapter 混合。 作者: |

封面图片

华为发布 DiT 架构的图像生成模型,可以直出 4K 分辨率图像。

华为发布 DiT 架构的图像生成模型,可以直出 4K 分辨率图像。 论文简介: 我们引入了 PixArt-\Sigma,一个能够直接生成 4K 分辨率图像的 Diffusion Transformer (Diffusion Transformer, DiT) 模型。相比其前身 PixArt-\alpha,PixArt-\Sigma 有了显著进步,提供了明显更高保真度的图像,并改进了与文本提示的一致性。 PixArt-\Sigma 的一个关键特点是其训练效率。借助 PixArt-\alpha 的基础预训练,它通过合并更高质量的数据,从"较弱"的基线演变为"较强"的模型,我们将这个过程称为"弱到强训练"。PixArt-\Sigma 的进步主要体现在两个方面: 高质量训练数据:PixArt-\Sigma 结合了更高质量的图像数据,与更精确和详细的图像标题配对。 高效的 Token 压缩:我们在 DiT 框架内提出了一个新的注意力模块,可以压缩键 (Key) 和值 (Value),显著提高效率,并促进超高分辨率图像生成。 得益于这些改进,PixArt-\Sigma 以显著较小的模型规模 (6 亿参数) 实现了优于现有文本到图像扩散模型 (如 SDXL (26 亿参数) 和 SD Cascade (51 亿参数)) 的图像质量和用户提示遵从能力。 此外,PixArt-\Sigma 生成 4K 图像的能力支持创建高分辨率海报和壁纸,有效地增强了电影和游戏等行业中高质量视觉内容的制作。 项目地址:

封面图片

终于来了! Midjourney角色一致性功能发布.

终于来了! Midjourney角色一致性功能发布. 下面视频是网站的使用方法和介绍: 这个功能和之前的风格参照很相似,不同之处在于它不是匹配一个特定风格,而是让角色与给定的角色参照图像相符合。 如何使用: 在你输入的指令后面加上 cref URL,URL是你选择的角色图像的链接。 你还可以用 cw 来调整参照的“强度”,范围从100到0。 默认的强度是100 (cw 100),这时会参考人物的脸部、发型和衣着。 如果设置为强度0 (cw 0),那么系统只会关注脸部(这对于更换服饰或发型很有帮助)。 适用范围: 这个功能最适合用于Midjourney创作的角色图像。不太适合用于真人照片(可能会产生一些扭曲,就像普通图像提示那样)。 Cref的工作方式类似于普通图像提示,但它更专注于角色的特征。 但请注意,这项技术的精确度是有限的,它无法复制极其细微的特征,比如特定的酒窝、雀斑或T恤上的标志。 Cref同样适用于Niji和普通MJ模型,并且可以与sref一起使用。 高级功能: 你可以使用多个URL,通过 cref URL1 URL2 的方式来结合多个图像中的角色信息(这和使用多重图像或风格提示类似)。 在web alpha版本中如何操作: 只需将图片拖动或粘贴到想象工具栏,你会看到三个图标。选择这些图标之一,可以设置图片用作图像提示、风格参照或角色参照。如果你想让一张图像同时用于多个类别,只需按住Shift键再选择。 请记住,由于MJ V6目前还处于alpha测试阶段,这个和其他功能可能会有所变化。但不久后,我们会推出官方的V6 beta版。

封面图片

Midjoureny 的角色一致性功能将会在本周推出,本来计划上周五但出了点问题。可以根据权重不同决定角色不同部分的相似度,角色

Midjoureny 的角色一致性功能将会在本周推出,本来计划上周五但出了点问题。可以根据权重不同决定角色不同部分的相似度,角色一致性初期不会允许外部图像,后面会考虑。 同时上周六某个使用 Stability 邮箱的账号尝试批量爬取 MJ 所有的图片和提示词导致了服务器长时间瘫痪,三方 API 需要注意,可能会被打击。 其他信息: 即将推出随机风格生成器方便探索风格; Turbo 模式可能今天推出; V7 会在最近两周开始训练; Contorlnet 依然没有进度; 考虑在 X 推出每日主题挑战; 3D 项目缺少数据,进度缓慢。 来源:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人