华为发布 DiT 架构的图像生成模型,可以直出 4K 分辨率图像。#ai画图#
华为发布DiT架构的图像生成模型,可以直出4K分辨率图像。论文简介:我们引入了PixArt-\Sigma,一个能够直接生成4K分辨率图像的DiffusionTransformer(DiffusionTransformer,DiT)模型。相比其前身PixArt-\alpha,PixArt-\Sigma有了显著进步,提供了明显更高保真度的图像,并改进了与文本提示的一致性。PixArt-\Sigma的一个关键特点是其训练效率。借助PixArt-\alpha的基础预训练,它通过合并更高质量的数据,从"较弱"的基线演变为"较强"的模型,我们将这个过程称为"弱到强训练"。PixArt-\Sigma的进步主要体现在两个方面:高质量训练数据:PixArt-\Sigma结合了更高质量的图像数据,与更精确和详细的图像标题配对。高效的Token压缩:我们在DiT框架内提出了一个新的注意力模块,可以压缩键(Key)和值(Value),显著提高效率,并促进超高分辨率图像生成。得益于这些改进,PixArt-\Sigma以显著较小的模型规模(6亿参数)实现了优于现有文本到图像扩散模型(如SDXL(26亿参数)和SDCascade(51亿参数))的图像质量和用户提示遵从能力。此外,PixArt-\Sigma生成4K图像的能力支持创建高分辨率海报和壁纸,有效地增强了电影和游戏等行业中高质量视觉内容的制作。项目地址: