这个真不错,TCD 模型解决了 LCM 模型由于多步采样中累积的错误导致的图像细节丢失和性能下降的问题。

这个真不错,TCD 模型解决了 LCM 模型由于多步采样中累积的错误导致的图像细节丢失和性能下降的问题。 可以快速生成图片,并且保证生成图片的质量和细节。还支持 SDXL 生态的所有内容,比如 Lora 和 Controlnet 。 详细介绍: 潜在一致性模型(Latent Consistency Model, LCM)通过将一致性模型扩展到潜在空间,并利用引导一致性蒸馏技术,在加速文本到图像合成方面取得了令人印象深刻的性能。然而,研究人员观察到LCM在生成清晰且细节精致的图像方面存在困难。 为了解决这一限制,研究人员首先深入研究并阐明了潜在的原因,发现主要问题源自三个不同的领域的错误。因此,他们引入了轨迹一致性蒸馏(Trajectory Consistency Distillation, TCD),包括轨迹一致性函数(Trajectory Consistency Function, TCF)和战略性随机采样(Strategic Stochastic Sampling, SSS)。 轨迹一致性函数通过扩大自我一致性边界条件的范围,减少了蒸馏错误,并使TCD能够准确追踪整个概率流常微分方程(Probability Flow ODE)的轨迹。此外,战略性随机采样专门设计用于规避多步一致性采样中固有的累积错误,这种采样方式被精心设计以补充TCD模型。 实验表明,TCD不仅在低噪声函数评估次数(Number of Function Evaluations, NFEs)时显著提高了图像质量,而且与教师模型相比,在高NFEs时产生了更详细的结果。TCD在低NFEs和高NFEs时都保持了优越的生成质量,甚至超过了带有原始SDXL的DPM-Solver++(2S)的性能。值得注意的是,在训练期间没有额外的鉴别器或LPIPS监督。研究人员展示了在20 NFEs下的一些示例。 与Turbo系列相比,TCD采样的NFEs可以随意变化,而不会对结果质量产生不利影响;与LCMs相比,TCD解决了由于多步采样中累积的错误导致的图像细节丢失和性能下降的问题。 在推理过程中,可以通过调整一个超参数gamma来简单地修改图像的细节水平,这不需要引入任何额外的参数。TCD可以适应社区中基于SDXL的各种扩展和插件,例如LoRA、ControlNet、IP Adapter以及其他基础模型,例如Animagine XL。 项目地址: Invalid media:

相关推荐

封面图片

StoryDiffusion 是一个开源的图像和视频生成模型,它通过一致自注意力机制和运动预测器,能够生成连贯的长序列图像和

StoryDiffusion 是一个开源的图像和视频生成模型,它通过一致自注意力机制和运动预测器,能够生成连贯的长序列图像和视频。 这个模型的主要优点在于它能够生成具有角色一致性的图像,并且可以扩展到视频生成,为用户提供了一个创造长视频的新方法。该模型对AI驱动的图像和视频生成领域有积极的影响,并且鼓励用户负责任地使用该工具。 使用场景示例: 使用StoryDiffusion生成一系列漫画风格的图像。 创建一个基于文本提示的长视频,展示一个连贯的故事。 利用StoryDiffusion进行角色设计和场景布局的预可视化。 产品特色: 一致自注意力机制:生成长序列中的角色一致图像。 运动预测器:在压缩的图像语义空间中预测运动,实现更大的运动预测。 漫画生成:利用一致自注意力机制生成的图像,无缝过渡创建视频。 图像到视频的生成:提供用户输入的条件图像序列来生成视频。 两阶段长视频生成:结合两个部分生成非常长且高质量的AIGC视频。 条件图像使用:图像到视频模型可以通过提供一系列用户输入的条件图像来生成视频。 短视频生成:提供快速的视频生成结果。 |

封面图片

就知道会有这个,AnimateLCM-SVD-xt 利用了 LCM 技术蒸馏的 SVD 模型,只需要四步就能生成不错的视频,相比

就知道会有这个,AnimateLCM-SVD-xt 利用了 LCM 技术蒸馏的 SVD 模型,只需要四步就能生成不错的视频,相比原来的模型生成时间缩短了好几倍。 遵循 AnimateLCM 论文中提出的策略,一致性蒸馏稳定视频扩散 Image2Video-XT (SVD-xt)。 AnimateLCM-SVD-xt 可以通过 2~8 个步骤生成 25 帧的高质量图像调节视频,分辨率为 576x1024。 AnimateLCM-SVD-xt 通常能在无需依赖分类器的自由引导下,仅通过四个步骤就生成高质量的演示。因此与普通的 SVD 模型相比,可以节省 25 x 2 / 4 = 12.5 倍的计算资源。 模型地址:

封面图片

前几天刷到了好几个用Pixverse做的好视频,刚好他们最近上线了网页版本和新模型就想顺便测试一下和 Runway 以及 Pik

前几天刷到了好几个用Pixverse做的好视频,刚好他们最近上线了网页版本和新模型就想顺便测试一下和 Runway 以及 Pika 的质量相比怎么样。 先说结论: 如果不考虑其他功能和交互我这次测试的结果Pixverse和 Pika 的质量接近分别是 74.5 分和 73.5 分。Runway 效果居然最差只有 64.5 分。 Pixverse的模型是这三者最为平衡的,可以有比较强的运动幅度,同时可以维持较好的一致性,模型可以比较好的对提示词进行响应,尤其是 2.5D 那个镜头非常的惊艳,但是纯二次元图片的效果也不是很好。 Pika 在动漫和 2.5D 风格上的优势巨大,但是只有 Pika 每次生成是 3秒钟,所以图像质量打分会比其他两个差,写实风格效果也不是很如意,图像质量以及一致性相对差一些。 Runway 的模型质量和上面两者差距较大,主要是二次元风格的还原度太差还有 2.5D 风格直接无法维持一致性,写实场景对复杂画面改动较大有时候无法维持画面一致性,但是 Runway 对生成内容的控制还是三者最强的,因为其他两个都没有所以这部分就不计入分数。 这里使用Pixverse: 说一下测试的内容这次只测试视频模型的质量,所以三者都会使用图生视频来测试,这样可以忽略各自的图像模型的差距。 另外每个都会使用物品特写、写实风景、写实人像、皮克斯 2.5D 风格、 2D 动画风格,这五种风格,然后每张图片生成的视频会从主题一致性、运动平滑度、运动程度以及成像质量这四个维度进行主观评分,每张图片随机一次,所以评分非常主观不保证复现,就是给大家使用的时候一个参考。 下面是具体每个测试的分数,视频是三者生成视频的对比: 物品特写-橘子落水: Runway 主题一致性4分、运动平滑度 4分、运动程度 4.5分、成像质量 3.5分 、总分: 16 Pixverse 主题一致性4分、运动平滑度 4分、运动程度 3.5分 、成像质量 4分 、总分:15.5 Pika 主题一致性 3.5分、运动平滑度 4分、运动程度 4分 、成像质量 3.5分、总分:15 写实风景-伦敦塔着火: Runway:主题一致性2分、运动平滑度 4分、运动程度 4分、成像质量 3.5分 、总分: 13.5 Pixverse:主题一致性4分、运动平滑度 4分、运动程度 3.5分 、成像质量 4分 、总分:15.5 Pika:主题一致性 3.5分、运动平滑度 3.5分、运动程度 3.5分 、成像质量 3.5分、总分:14 皮克斯 2.5D 风格-拟人狐狸: Runway:主题一致性2分、运动平滑度 3.5分、运动程度 4分、成像质量 2分 、总分: 11.5 Pixverse:主题一致性4分、运动平滑度 4分、运动程度 4分 、成像质量 4分 、总分:16 Pika:主题一致性 3.5分、运动平滑度 4分、运动程度 3.5分 、成像质量 3.5分、总分:14.5 写实人像-水面古装: Runway:主题一致性4分、运动平滑度 4分、运动程度 2分、成像质量 3.5分 、总分: 13.5 Pixverse:主题一致性4分、运动平滑度 4分、运动程度 4分 、成像质量 4分 、总分:16 Pika:主题一致性 3分、运动平滑度 3.5分、运动程度 4.5分 、成像质量 3分、总分:14 动漫场景-植物园女孩: Runway:主题一致性 1分、运动平滑度 2分、运动程度 4分、成像质量 3分 、总分:10 Pixverse:主题一致性3分、运动平滑度 3分、运动程度 2.5分 、成像质量 3分 、总分:11.5 Pika:主题一致性 4分、运动平滑度 4分、运动程度 4.5分 、成像质量 3.5分、总分:16 总分: Runway:64.5、Pixverse:74.5 、Pika:73.5 Invalid media:

封面图片

华为发布 DiT 架构的图像生成模型,可以直出 4K 分辨率图像。

华为发布 DiT 架构的图像生成模型,可以直出 4K 分辨率图像。 论文简介: 我们引入了 PixArt-\Sigma,一个能够直接生成 4K 分辨率图像的 Diffusion Transformer (Diffusion Transformer, DiT) 模型。相比其前身 PixArt-\alpha,PixArt-\Sigma 有了显著进步,提供了明显更高保真度的图像,并改进了与文本提示的一致性。 PixArt-\Sigma 的一个关键特点是其训练效率。借助 PixArt-\alpha 的基础预训练,它通过合并更高质量的数据,从"较弱"的基线演变为"较强"的模型,我们将这个过程称为"弱到强训练"。PixArt-\Sigma 的进步主要体现在两个方面: 高质量训练数据:PixArt-\Sigma 结合了更高质量的图像数据,与更精确和详细的图像标题配对。 高效的 Token 压缩:我们在 DiT 框架内提出了一个新的注意力模块,可以压缩键 (Key) 和值 (Value),显著提高效率,并促进超高分辨率图像生成。 得益于这些改进,PixArt-\Sigma 以显著较小的模型规模 (6 亿参数) 实现了优于现有文本到图像扩散模型 (如 SDXL (26 亿参数) 和 SD Cascade (51 亿参数)) 的图像质量和用户提示遵从能力。 此外,PixArt-\Sigma 生成 4K 图像的能力支持创建高分辨率海报和壁纸,有效地增强了电影和游戏等行业中高质量视觉内容的制作。 项目地址:

封面图片

卧槽,字节昨天发布这个项目DreamTuner,可以一举解决图像生成中角色一致性的问题。

卧槽,字节昨天发布这个项目DreamTuner,可以一举解决图像生成中角色一致性的问题。 效果也太好了,可以将输入图片的角色在生成新图是完美保留,并且融合度非常好,这下小说、漫画和视频的人物一致性和商品一致性问题彻底解决了。 并且可以和ContorlNet联动确保动画的稳定,间接实现了前段时间的让单张图片动起来的功能。 项目简介: 我们提出了一种新颖的方法DreamTurner,该方法将定制主题的参考信息从粗到细注入。首先提出了一个主题编码器,用于粗略主题身份保留,通过额外的注意力层在视觉-文本交叉注意力之前引入了压缩的一般主题特征。 然后,注意到预训练的文本到图像模型中的自注意力层自然地执行了详细的空间上下文关联功能,我们将其修改为自主题注意力层,以细化目标主题的细节,生成的图像从参考图像和自身查询详细特征。 值得强调的是,自主题注意力是一种优雅、有效且无需训练的方法,用于保持定制概念的详细特征,可在推断过程中作为即插即用的解决方案。 最后,通过对单个图像进行额外微调,DreamTurner 在受主题驱动的图像生成方面取得了显著的表现,可由文本或其他条件(如姿势)进行控制。 项目地址:

封面图片

Animationiff-cli-prompt-travel 与 IPadapter(允许图像提示与文本提示混合),提高文本生成

Animationiff-cli-prompt-travel 与 IPadapter(允许图像提示与文本提示混合),提高文本生成视频的一致性。教程正在路上。现在尝试在 LoRA 中与 IPAdapter 混合。 作者: |

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人