华为发布 DiT 架构的图像生成模型,可以直出 4K 分辨率图像。

华为发布 DiT 架构的图像生成模型,可以直出 4K 分辨率图像。 论文简介: 我们引入了 PixArt-\Sigma,一个能够直接生成 4K 分辨率图像的 Diffusion Transformer (Diffusion Transformer, DiT) 模型。相比其前身 PixArt-\alpha,PixArt-\Sigma 有了显著进步,提供了明显更高保真度的图像,并改进了与文本提示的一致性。 PixArt-\Sigma 的一个关键特点是其训练效率。借助 PixArt-\alpha 的基础预训练,它通过合并更高质量的数据,从"较弱"的基线演变为"较强"的模型,我们将这个过程称为"弱到强训练"。PixArt-\Sigma 的进步主要体现在两个方面: 高质量训练数据:PixArt-\Sigma 结合了更高质量的图像数据,与更精确和详细的图像标题配对。 高效的 Token 压缩:我们在 DiT 框架内提出了一个新的注意力模块,可以压缩键 (Key) 和值 (Value),显著提高效率,并促进超高分辨率图像生成。 得益于这些改进,PixArt-\Sigma 以显著较小的模型规模 (6 亿参数) 实现了优于现有文本到图像扩散模型 (如 SDXL (26 亿参数) 和 SD Cascade (51 亿参数)) 的图像质量和用户提示遵从能力。 此外,PixArt-\Sigma 生成 4K 图像的能力支持创建高分辨率海报和壁纸,有效地增强了电影和游戏等行业中高质量视觉内容的制作。 项目地址:

相关推荐

封面图片

又一个Transformer架构的图像生成模型,FiT 专门为了生成不瘦分辨率和宽高比限制的图像制作的架构。

又一个Transformer架构的图像生成模型,FiT 专门为了生成不瘦分辨率和宽高比限制的图像制作的架构。 在模型的训练和推理都不需要专门适配对应的图片比例和分辨率。看演示的图像模型的美学表现也还行。 -项目简介- 推出了一种名为灵活视觉变换器(Flexible Vision Transformer,简称FiT)的新型变换器架构。它专门设计用于创造没有分辨率和宽高比限制的图像。不同于传统的将图像看作固定分辨率网格的方法,FiT将图像视为一系列可变大小的图像块( Token )。 这种独特的处理方式使得FiT能够在训练和应用过程中灵活适应不同的图像宽高比,提高了对不同分辨率的适应能力,并避免了由于裁剪图像而产生的偏差。FiT还通过精心设计的网络结构和一些不需要额外训练的技术,能够在图像分辨率的扩展方面展现出极大的灵活性。 通过一系列全面的实验,FiT证明了其在处理各种不同分辨率的图像方面具有卓越的性能,无论是在其训练的分辨率范围内还是超出这一范围,都表现出色。 项目地址:

封面图片

:提高任何大小图像的分辨率

:提高任何大小图像的分辨率 该项目使用了一个预训练的扩散模型,这个模型已经学习了如何生成高分辨率的图像。 通过这种方式,他们的方法可以从一个低分辨率图像生成一个高分辨率图像,而不需要任何关于图像内容的先验知识。非常适合用于真实世界的图像超分辨率任务。 1、使用一个名为"时间感知编码器"的工具,这个工具可将低分辨率图像转换为一个特征表示。这个特征表示包含了图像的重要信息,但是它的大小是固定的,不受图像分辨率的影响 在不改变预训练的合成模型的情况下,实现有前景的恢复结果,从而保留生成的先验并最小化训练成本。 2、使用一个名为"特征包装模块"的工具,这个工具可以将特征表示转换为一个高分辨率图像。这个工具可以通过调整一个参数来平衡生成图像的质量和保真度。 3、使用一个名为"渐进式聚合采样策略"的工具,这个工具可以生成任意大小的高分辨率图像。这个工具通过在不同的尺度上应用扩散模型,然后将结果聚合在一起,来生成高分辨率图像。

封面图片

字节跳动发布了文生图开放模型 SDXL-Lightning。据悉,该模型能够在极短的时间内生成高质量和高分辨率的图像,是目前最快

字节跳动发布了文生图开放模型 SDXL-Lightning。据悉,该模型能够在极短的时间内生成高质量和高分辨率的图像,是目前最快的文生图模型之一。 文生图技术虽然能够生成逼真的图像,但是也存在着计算资源消耗大、生成速度慢的缺点。生成一张高质量图像,大约需要 5 秒。 SDXL-Lightning 模型则采用了一种渐进式对抗蒸馏的技术,实现前所未有的生成速度,该模型能够在 2 步或 4 步内生成极高质量和分辨率的图像,将生成速度加快十倍,是 1024 分辨率下速度最快的文生图模型,计算成本则降低为十分之一。 字节跳动智能创作团队称,该模型是基于字节跳动之前开源的文生图模型 SDXL 的改进版本,与开放模型社区的其他工具和插件兼容,SDXL-Lightning 可以作为增速插件无缝整合到卡通、动漫等多样风格的 SDXL 模型中,并支持当前流行的控制插件 ControlNet、生成软件 ComfyUI,方便开发者、研究人员和创意从业者结合使用这些工具,助力整个行业的创新和协作。 在线体验: GitHub: Hugging Face: via 匿名 标签: #字节跳动 频道: @GodlyNews1 投稿: @GodlyNewsBot

封面图片

字节发布ResAdapter,可以解决SD生成超大图片和非训练分辨率图片时的肢体异常以及画面崩坏问题。

字节发布ResAdapter,可以解决SD生成超大图片和非训练分辨率图片时的肢体异常以及画面崩坏问题。 同时可以与现有的IPadapter以及Controlnet模型兼容。 项目简介: 近期,像Stable Diffusion这样的文本到图像模型和DreamBooth、LoRA等个性化技术的发展,让我们能够创造出既高质量又充满创意的图像。但这些技术在生成超出它们训练时所用分辨率的图像时,往往会受到限制。 为了突破这一难题,我们推出了一种新型工具分辨率适配器(ResAdapter)。 它是一种专门为扩散模型(比如Stable Diffusion和个性化模型)设计的适配器,能够生成任何分辨率和长宽比的图像。与其它多分辨率生成方法不同,ResAdapter能直接生成动态分辨率的图像,而不是在后期处理中调整静态分辨率的图像。这种方法使得图像处理变得更加高效,避免了重复的去噪步骤和复杂的后期处理流程,显著缩短了处理时间。 在不包含任何训练领域风格信息的情况下,ResAdapter利用广泛的分辨率先验,即使只有0.5M的容量,也能为个性化扩散模型生成不同于原训练领域的高分辨率图像,同时保持原有风格。 大量实验显示,ResAdapter在提高分辨率方面与扩散模型配合得天衣无缝。此外,更多的实验表明,ResAdapter可以与ControlNet、IP-Adapter和LCM-LoRA等其他模块兼容,适用于创建不同分辨率的图像,也可以整合进如ElasticDiffusion这样的多分辨率模型中,高效生成更高清晰度的图像。 项目页面:

封面图片

字节跳动发布文生图开放模型 SDXL-Lightning,生成速度提升十倍

字节跳动发布文生图开放模型 SDXL-Lightning,生成速度提升十倍 字节跳动发布了文生图开放模型 SDXL-Lightning。据悉,该模型能够在极短的时间内生成高质量和高分辨率的图像,是目前最快的文生图模型之一。 目前,文生图领域的主流模型都采用了扩散过程的生成技术,即通过多次迭代,将噪声逐渐转化为图像。这种技术虽然能够生成逼真的图像,但是也存在着计算资源消耗大、生成速度慢的缺点。生成一张高质量图像,大约需要 5 秒。 字节跳动的 SDXL-Lightning 模型则采用了一种渐进式对抗蒸馏的技术,实现前所未有的生成速度,该模型能够在 2 步或 4 步内生成极高质量和分辨率的图像,将生成速度加快十倍,是 1024 分辨率下速度最快的文生图模型,计算成本则降低为十分之一。 该模型已经在 AI 开源社区 Hugging Face 上公开,跻身模型趋势榜,同时也成为上的热门模型。来源 , 频道:@kejiqu 群组:@kejiquchat

封面图片

Stability AI发布最新图像生成模型Stable Diffusion XL 1.0

Stability AI发布最新图像生成模型Stable Diffusion XL 1.0 今天,Stability AI 宣布推出 Stable Diffusion XL 1.0,这是该公司迄今为止描述为“最先进”的文本到图像模型。Stable Diffusion XL 1.0 可在上以开源形式使用,并提供给 Stability 的和消费者应用程序和 。Stability 声称,与其前代产品相比,Stable Diffusion XL 1.0 提供了“更生动”和“更准确”的颜色,更好的对比度、阴影和照明效果。 在接受采访时,Stability AI 的应用机器学习负责人Joe Penna 指出,Stable Diffusion XL 1.0 包含 35亿个参数,可以“在几秒钟内”生成多种长宽比的 100万像素分辨率的完整图像。“参数”是模型从训练数据中学习到的部分,基本上定义了模型在解决问题上的技能水平。 上一代稳定扩散模型稳定扩散 XL 0.9 也可以生成更高分辨率的图像,但需要更多的计算能力。 、

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人