卧槽，字节昨天发布这个项目DreamTuner，可以一举解决图像生成中角色一致性的问题。

卧槽，字节昨天发布这个项目DreamTuner，可以一举解决图像生成中角色一致性的问题。效果也太好了，可以将输入图片的角色在生成新图是完美保留，并且融合度非常好，这下小说、漫画和视频的人物一致性和商品一致性问题彻底解决了。并且可以和ContorlNet联动确保动画的稳定，间接实现了前段时间的让单张图片动起来的功能。项目简介：我们提出了一种新颖的方法DreamTurner，该方法将定制主题的参考信息从粗到细注入。首先提出了一个主题编码器，用于粗略主题身份保留，通过额外的注意力层在视觉-文本交叉注意力之前引入了压缩的一般主题特征。然后，注意到预训练的文本到图像模型中的自注意力层自然地执行了详细的空间上下文关联功能，我们将其修改为自主题注意力层，以细化目标主题的细节，生成的图像从参考图像和自身查询详细特征。值得强调的是，自主题注意力是一种优雅、有效且无需训练的方法，用于保持定制概念的详细特征，可在推断过程中作为即插即用的解决方案。最后，通过对单个图像进行额外微调，DreamTurner在受主题驱动的图像生成方面取得了显著的表现，可由文本或其他条件（如姿势）进行控制。项目地址：https://dreamtuner-diffusion.github.io/

在Telegram中查看

相关推荐

StoryDiffusion 是一个开源的图像和视频生成模型，它通过一致自注意力机制和运动预测器，能够生成连贯的长序列图像和

StoryDiffusion是一个开源的图像和视频生成模型，它通过一致自注意力机制和运动预测器，能够生成连贯的长序列图像和视频。这个模型的主要优点在于它能够生成具有角色一致性的图像，并且可以扩展到视频生成，为用户提供了一个创造长视频的新方法。该模型对AI驱动的图像和视频生成领域有积极的影响，并且鼓励用户负责任地使用该工具。使用场景示例：使用StoryDiffusion生成一系列漫画风格的图像。创建一个基于文本提示的长视频，展示一个连贯的故事。利用StoryDiffusion进行角色设计和场景布局的预可视化。产品特色：一致自注意力机制：生成长序列中的角色一致图像。运动预测器：在压缩的图像语义空间中预测运动，实现更大的运动预测。漫画生成：利用一致自注意力机制生成的图像，无缝过渡创建视频。图像到视频的生成：提供用户输入的条件图像序列来生成视频。两阶段长视频生成：结合两个部分生成非常长且高质量的AIGC视频。条件图像使用：图像到视频模型可以通过提供一系列用户输入的条件图像来生成视频。短视频生成：提供快速的视频生成结果。

Google推出新图像控制方式可在StableDiffusion图像生成中保证内容特征一致性

Google推出新图像控制方式可在StableDiffusion图像生成中保证内容特征一致性论文地址：https://arxiv.org/pdf/2311.10093.pdf这项技术的实现方法包括三个步骤。首先是身份聚类，通过生成一系列图像，并将它们嵌入到语义空间中，使用聚类算法将这些图像分组，每个组代表一种可能的角色身份。这个过程旨在识别出一组视觉上一致的图像，从而确定角色的主要视觉特征。接下来是身份提取，一旦确定了一组具有高内聚性的图像，就会在这些图像上训练模型，以提取出更一致的角色身份。这意味着模型将学习到特定角色的关键视觉特征，以便在未来的生成中更准确地重现这些特征。...PC版：https://www.cnbeta.com.tw/articles/soft/1398313.htm手机版：https://m.cnbeta.com.tw/view/1398313.htm

Midjourney推出了角色一致性功能！--cref参数使用Midjourney推出了角色一致性功能“CharacterRef

Midjourney推出了角色一致性功能！--cref参数使用Midjourney推出了角色一致性功能“CharacterReference”（角色参考）！这个功能可以帮助用户在不同场景或不同图片中创作出外观和特征一致的角色形象。与之前推出的“StyleReference”（风格参考）功能类似，“CharacterReference”也是通过匹配参考图片来生成新的图像。但不同之处在于，CharacterReference专注于匹配参考图片中角色的特征，如面部、发型和服装等，而不是整体风格。

卧槽 MagicClothing 这个AI 换装的演示效果有点强啊。

卧槽MagicClothing这个AI换装的演示效果有点强啊。而且还可以与ControlNet和IP-Adapter等其他技术结合使用。还是开源的，期待对应的ComfUI节点。详细介绍：推出了一种名为MagicClothing的新型网络架构，它基于潜在扩散模型（LDM）进行开发，专门处理一项新的图像合成任务——服装驱动的图像合成。该系统旨在生成根据不同文本提示定制的、穿着特定服装的角色。在这一过程中，图像的可控性至关重要，主要是要确保服装的细节得以保留，并且生成的图像要忠实于文本提示。为了实现这一点，我们开发了一种服装特征提取器，用以详细捕捉服装的特征，并通过自注意力融合技术，将这些特征有效整合到预训练好的LDMs中，确保目标角色的服装细节不发生改变。同时，我们还使用了一种称为联合无分类器指导的技术，以平衡服装特征和文本提示在生成图像中的影响。此外，我们提出的服装提取器是一个可插拔模块，可以应用于多种经过微调的LDMs，并能与ControlNet和IP-Adapter等其他技术结合使用，进一步提高生成角色的多样性和可控性。我们还开发了一种名为匹配点LPIPS（MP-LPIPS）的新型评估指标，用于评价生成图像与原始服装之间的一致性。论文地址：https://arxiv.org/abs/2404.09512

华为发布 DiT 架构的图像生成模型，可以直出 4K 分辨率图像。#ai画图#

华为发布DiT架构的图像生成模型，可以直出4K分辨率图像。论文简介：我们引入了PixArt-\Sigma,一个能够直接生成4K分辨率图像的DiffusionTransformer(DiffusionTransformer,DiT)模型。相比其前身PixArt-\alpha,PixArt-\Sigma有了显著进步,提供了明显更高保真度的图像,并改进了与文本提示的一致性。PixArt-\Sigma的一个关键特点是其训练效率。借助PixArt-\alpha的基础预训练,它通过合并更高质量的数据,从"较弱"的基线演变为"较强"的模型,我们将这个过程称为"弱到强训练"。PixArt-\Sigma的进步主要体现在两个方面:高质量训练数据:PixArt-\Sigma结合了更高质量的图像数据,与更精确和详细的图像标题配对。高效的Token压缩:我们在DiT框架内提出了一个新的注意力模块,可以压缩键(Key)和值(Value),显著提高效率,并促进超高分辨率图像生成。得益于这些改进,PixArt-\Sigma以显著较小的模型规模(6亿参数)实现了优于现有文本到图像扩散模型(如SDXL(26亿参数)和SDCascade(51亿参数))的图像质量和用户提示遵从能力。此外,PixArt-\Sigma生成4K图像的能力支持创建高分辨率海报和壁纸,有效地增强了电影和游戏等行业中高质量视觉内容的制作。项目地址：

Midjoureny 的角色一致性功能将会在本周推出，本来计划上周五但出了点问题。可以根据权重不同决定角色不同部分的相似度，角色

Midjoureny的角色一致性功能将会在本周推出，本来计划上周五但出了点问题。可以根据权重不同决定角色不同部分的相似度，角色一致性初期不会允许外部图像，后面会考虑。同时上周六某个使用Stability邮箱的账号尝试批量爬取MJ所有的图片和提示词导致了服务器长时间瘫痪，三方API需要注意，可能会被打击。其他信息：即将推出随机风格生成器方便探索风格；Turbo模式可能今天推出；V7会在最近两周开始训练；Contorlnet依然没有进度；考虑在X推出每日主题挑战；3D项目缺少数据，进度缓慢。来源：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人