作者展示了几张用自己训练好的 LoRA 模型生成的图像作为成果展示。这些图像的质量相当不错,证明作者的训练过程是成功的。作者表示

一个懒人 LoRA 制作指南，手把手教你用 OneTrainer 训练自己的 AI 绘画模型,无需深入理论,轻松掌握关键步骤。

一个懒人 LoRA 制作指南，手把手教你用 OneTrainer 训练自己的 AI 绘画模型,无需深入理论,轻松掌握关键步骤。作者是用XL生成的图片，你可以用MIdjoureny生成效果比较好。我完整翻译了内容，并且重新整理了适合推特阅读的版本，或者你可以在下面看完整翻译的内容： - 1⃣ LoRA 模型制作教程作者作为一名 LoRA 模型制作的新手,通过自己的学习实践,总结了一份简明扼要的制作教程。这份教程不涉及太多理论知识,而是直奔主题,手把手教初学者如何训练自己的 LoRA 模型。作者坦诚分享了自己从最初尝试 Embedding 和 LoRA 时遇到的问题,以及后来找到的解决方法,为读者提供了宝贵的经验参考。所需工具介绍要制作 LoRA 模型,需要准备一些必要的工具。作者推荐使用自己喜欢的模型和图像生成工具,他个人使用的是 StableSwarmUI 和 GhostXL 模型。此外,还需要一个训练工具,作者选择了 OneTrainer,因为有人说它比另一个常用的工具 Kohya 更易用。作者还提到,训练时如果需要将 SDXL 格式的图像转换为 SD 格式,需要在设置中开启分辨率覆盖选项。 2⃣ LoRA 模型制作步骤作者将 LoRA 模型的制作过程分为三个主要步骤: 第一步是用现有的模型生成大量高质量的图像作为训练数据; 第二步是人工检查挑选图像,剔除所有质量不合格的; 第三步是使用 OneTrainer 进行训练,调整必要的参数设置。作者还特别提到,在训练时如果需要将 SDXL 格式的图像转换为 SD 格式,一定要记得开启分辨率覆盖选项,否则训练会出问题。训练参数调整心得作为一名新手,作者在调整训练参数时主要参考了一份网上的指南。他尝试调整了 Lora 设置中的 rank 参数,将其从默认的 16 改为 32,解决了模型训练中遇到的问题。作者分享了这份参数调整指南的链接,供其他学习者参考。 3⃣ 作者的训练数据集分享为了帮助更多学习者,作者慷慨地分享了自己完整的训练图像数据集,其中还包含了他使用的 OneTrainer 配置文件。这些数据可供其他 LoRA 制作人下载参考和使用。数据集已经过作者的筛选,图像质量有保证。 4⃣ 训练成果展示

微软这个研究相当强啊，可以不经过训练直接融合多个 Lora 不损失效果，而且他们提出的通过 GPT-4V 评价图像质量的方法也很

微软这个研究相当强啊，可以不经过训练直接融合多个 Lora 不损失效果，而且他们提出的通过 GPT-4V 评价图像质量的方法也很有参考性。项目介绍：本项目旨在通过新的文本至图像生成方法，着重采用多重低秩适应（Low-Rank Adaptations, LoRAs）技术，创造高度个性化且细节丰富的图像。我们介绍了LoRA开关（LoRA Switch）与LoRA组合（LoRA Composite），这两种方式的目标是在精确度和图像质量上超越传统技术，特别是在处理复杂图像组合时。项目特色：免训练方法 LoRA开关和LoRA组合支持动态精确地整合多个LoRA，无需进行微调。我们的方法不同于那些融合LoRA权重的做法，而是专注于解码过程，并保持所有LoRA权重不变。 ComposLoRA测试平台这是一个全新的综合性测试平台，包含480套组合和22个在六大类别中预训练好的LoRA。 ComposLoRA专为评估基于LoRA的可组合图像生成任务而设计，支持定量评估。基于GPT-4V的评估工具我们提出采用GPT-4V作为评估工具，用以判定组合效果及图像质量。该评估工具已证实在与人类评价的相关性上有更好的表现。卓越性能无论是自动化还是人类评价，我们的方法都显著优于现有的LoRA合并技术。在生成复杂图像组合的场景中，我们的方法表现出更加突出的优势。详尽分析我们对每种方法在不同场景下的优势进行了深入的分析。同时，我们还探讨了采用GPT-4V作为评估工具可能存在的偏差。项目地址：

华为发布 DiT 架构的图像生成模型，可以直出 4K 分辨率图像。

华为发布 DiT 架构的图像生成模型，可以直出 4K 分辨率图像。论文简介：我们引入了 PixArt-\Sigma,一个能够直接生成 4K 分辨率图像的 Diffusion Transformer (Diffusion Transformer, DiT) 模型。相比其前身 PixArt-\alpha,PixArt-\Sigma 有了显著进步,提供了明显更高保真度的图像,并改进了与文本提示的一致性。 PixArt-\Sigma 的一个关键特点是其训练效率。借助 PixArt-\alpha 的基础预训练,它通过合并更高质量的数据,从"较弱"的基线演变为"较强"的模型,我们将这个过程称为"弱到强训练"。PixArt-\Sigma 的进步主要体现在两个方面: 高质量训练数据:PixArt-\Sigma 结合了更高质量的图像数据,与更精确和详细的图像标题配对。高效的 Token 压缩:我们在 DiT 框架内提出了一个新的注意力模块,可以压缩键 (Key) 和值 (Value),显著提高效率,并促进超高分辨率图像生成。得益于这些改进,PixArt-\Sigma 以显著较小的模型规模 (6 亿参数) 实现了优于现有文本到图像扩散模型 (如 SDXL (26 亿参数) 和 SD Cascade (51 亿参数)) 的图像质量和用户提示遵从能力。此外,PixArt-\Sigma 生成 4K 图像的能力支持创建高分辨率海报和壁纸,有效地增强了电影和游戏等行业中高质量视觉内容的制作。项目地址：

Stability AI产量很高啊，推出了一个新的 AI 图像生成模型Stable Cascade，还会发布对应的微调、Cont

Stability AI产量很高啊，推出了一个新的 AI 图像生成模型Stable Cascade，还会发布对应的微调、ControlNet 和 LoRA 训练的脚本。这个模型基于Würstchen架构，可以显著降低模型训练的算力成本，比 SD2.1 的算力成本降低了 10 倍左右。另外推理速度会比现有的 SD 模型快一倍左右。更多功能：除了标准的文本到图像生成之外，Stable Cascade 还可以执行图像变化和图像到图像生成。会跟随模型一起发布的 Controlnet：局部重绘：输入与文本提示附带的蒙版配对的图像。该模型根据提供的文本提示填充图像的遮罩部分。 Canny Edge：通过跟踪输入到模型的现有图像的边缘来生成新图像。该测试也可以从草图进行扩展。 2x超分辨率：也可用于C阶段生成的潜在空间。了解更多：

字节发布了一个用类似 SDXL Turbo 的模型SDXL-Lightning，只需几步即可生成高质量的 1024px 图像。

字节发布了一个用类似 SDXL Turbo 的模型SDXL-Lightning，只需几步即可生成高质量的 1024px 图像。包括了 unet 模型和 Lora 模型都已经发布，Lora 模型可以用在其他 SDXL 模型上。感兴趣可以试试。模型下载：

Stability AI发布最新图像生成模型Stable Diffusion XL 1.0