今天还有个事情我觉的不亚于GPTs也值得关注一下。

今天还有个事情我觉的不亚于GPTs也值得关注一下。 前段时间我一直在关注LCM(Latent Consistency Models)这个技术,它可以让SD的图片生成速度提高5倍左右,但是存在的一个问题就是模型需要单独训练,无法兼容现有模型,这就导致无法融入现有的生态。 今天这个状态改变了,他们把LCM变成了一个Lora模型,这个模型可以兼容现有的所有SD模型,不管是1.5的还是SDXL还是SSB-1B。 带来的后果就是大幅降低SD图片生成的硬件门槛,你现在甚至用CPU跑图的时间都可以接受了。 可以在更短的时间生成更多的图像,这在抽卡的时候很重要,大力出奇迹是能解决很多问题的。 SD图像生成服务的成本会大幅降低。 LCM Lora现在已经可以在Comfy UI上使用了,我自己测试了一下,1.5的模型使用LCM Lora大概比不使用快了4.7倍左右。下面几张图是对应的生成效果和时间。从生成质量上来看没有特别大的区别。

相关推荐

封面图片

Stability AI产量很高啊,推出了一个新的 AI 图像生成模型Stable Cascade,还会发布对应的微调、Cont

Stability AI产量很高啊,推出了一个新的 AI 图像生成模型Stable Cascade,还会发布对应的微调、ControlNet 和 LoRA 训练的脚本。 这个模型基于Würstchen架构,可以显著降低模型训练的算力成本,比 SD2.1 的算力成本降低了 10 倍左右。另外推理速度会比现有的 SD 模型快一倍左右。 更多功能: 除了标准的文本到图像生成之外,Stable Cascade 还可以执行图像变化和图像到图像生成。 会跟随模型一起发布的 Controlnet: 局部重绘:输入与文本提示附带的蒙版配对的图像。该模型根据提供的文本提示填充图像的遮罩部分。 Canny Edge:通过跟踪输入到模型的现有图像的边缘来生成新图像。该测试也可以从草图进行扩展。 2x超分辨率:也可用于C阶段生成的潜在空间。 了解更多:

封面图片

字节发布ResAdapter,可以解决SD生成超大图片和非训练分辨率图片时的肢体异常以及画面崩坏问题。

字节发布ResAdapter,可以解决SD生成超大图片和非训练分辨率图片时的肢体异常以及画面崩坏问题。 同时可以与现有的IPadapter以及Controlnet模型兼容。 项目简介: 近期,像Stable Diffusion这样的文本到图像模型和DreamBooth、LoRA等个性化技术的发展,让我们能够创造出既高质量又充满创意的图像。但这些技术在生成超出它们训练时所用分辨率的图像时,往往会受到限制。 为了突破这一难题,我们推出了一种新型工具分辨率适配器(ResAdapter)。 它是一种专门为扩散模型(比如Stable Diffusion和个性化模型)设计的适配器,能够生成任何分辨率和长宽比的图像。与其它多分辨率生成方法不同,ResAdapter能直接生成动态分辨率的图像,而不是在后期处理中调整静态分辨率的图像。这种方法使得图像处理变得更加高效,避免了重复的去噪步骤和复杂的后期处理流程,显著缩短了处理时间。 在不包含任何训练领域风格信息的情况下,ResAdapter利用广泛的分辨率先验,即使只有0.5M的容量,也能为个性化扩散模型生成不同于原训练领域的高分辨率图像,同时保持原有风格。 大量实验显示,ResAdapter在提高分辨率方面与扩散模型配合得天衣无缝。此外,更多的实验表明,ResAdapter可以与ControlNet、IP-Adapter和LCM-LoRA等其他模块兼容,适用于创建不同分辨率的图像,也可以整合进如ElasticDiffusion这样的多分辨率模型中,高效生成更高清晰度的图像。 项目页面:

封面图片

一个懒人 LoRA 制作指南,手把手教你用 OneTrainer 训练自己的 AI 绘画模型,无需深入理论,轻松掌握关键步骤。

一个懒人 LoRA 制作指南,手把手教你用 OneTrainer 训练自己的 AI 绘画模型,无需深入理论,轻松掌握关键步骤。 作者是用XL生成的图片,你可以用MIdjoureny生成效果比较好。 我完整翻译了内容,并且重新整理了适合推特阅读的版本,或者你可以在下面看完整翻译的内容: - 1⃣ LoRA 模型制作教程 作者作为一名 LoRA 模型制作的新手,通过自己的学习实践,总结了一份简明扼要的制作教程。 这份教程不涉及太多理论知识,而是直奔主题,手把手教初学者如何训练自己的 LoRA 模型。 作者坦诚分享了自己从最初尝试 Embedding 和 LoRA 时遇到的问题,以及后来找到的解决方法,为读者提供了宝贵的经验参考。 所需工具介绍 要制作 LoRA 模型,需要准备一些必要的工具。作者推荐使用自己喜欢的模型和图像生成工具,他个人使用的是 StableSwarmUI 和 GhostXL 模型。 此外,还需要一个训练工具,作者选择了 OneTrainer,因为有人说它比另一个常用的工具 Kohya 更易用。作者还提到,训练时如果需要将 SDXL 格式的图像转换为 SD 格式,需要在设置中开启分辨率覆盖选项。 2⃣ LoRA 模型制作步骤 作者将 LoRA 模型的制作过程分为三个主要步骤: 第一步是用现有的模型生成大量高质量的图像作为训练数据; 第二步是人工检查挑选图像,剔除所有质量不合格的; 第三步是使用 OneTrainer 进行训练,调整必要的参数设置。 作者还特别提到,在训练时如果需要将 SDXL 格式的图像转换为 SD 格式,一定要记得开启分辨率覆盖选项,否则训练会出问题。 训练参数调整心得 作为一名新手,作者在调整训练参数时主要参考了一份网上的指南。 他尝试调整了 Lora 设置中的 rank 参数,将其从默认的 16 改为 32,解决了模型训练中遇到的问题。作者分享了这份参数调整指南的链接,供其他学习者参考。 3⃣ 作者的训练数据集分享 为了帮助更多学习者,作者慷慨地分享了自己完整的训练图像数据集,其中还包含了他使用的 OneTrainer 配置文件。这些数据可供其他 LoRA 制作人下载参考和使用。数据集已经过作者的筛选,图像质量有保证。 4⃣ 训练成果展示

封面图片

一个可以用来打造个人数字形象的深度学习模型工具,仅需要提供最低三张照片即可获得独属于自己的个人形象数字替身

一个可以用来打造个人数字形象的深度学习模型工具,仅需要提供最低三张照片即可获得独属于自己的个人形象数字替身 FaceChain由阿里达摩院开发。使用了多个模型,包括面部检测模型、图像旋转模型、人体解析模型、肤色修饰模型等。 算法介绍: 训练阶段: 输入用户上传的清晰面部区域图像,输出Face LoRA模型。通过一系列的图像处理和模型微调,获取高质量的面部训练图像,并获得面部LoRA模型。 推断阶段: 基于面部LoRA模型和样式LoRA模型生成个人肖像图像,然后进一步改善肖像图像的面部细节。 你可以通过FaceChain的Python脚本或熟悉的Gradio界面训练你的数字孪生模型并生成照片,也可以直接通过ModelScope Studio体验FaceChain。 | #工具

封面图片

试了一下lllyasviel的Web UI分支Forge,太强了。

试了一下lllyasviel的Web UI分支Forge,太强了。 在我的电脑上测试的时候图片生成速度快了一倍左右,Web UI需要3.7秒的图Forge只需要1.9秒。 而且lllyasviel还在Forge预装了很多非常有用的功能,比如提高图像质量的FreeU以及可以帮助SD1.5直接生成大图的Kohya的HRFix。 如果你平时就是用Web UI画画图不装一些奇怪复杂插件的话,或者你的显卡比较差,都推荐替换为Forge。 安装方式直接从下面链接替换整合包就行,如果你需要用你WebUI的模型文件的话可以鼠标右键用记事本打开web ui根目录的webui-user.bat文件。 把第二张图位置加上这段内容就行,文件夹目录改成你需要的目录(注意斜杠):ckpt-dir D:/sd/novelai-webui-aki-v2/models/Stable-diffusion vae-dir D:/sd/novelai-webui-aki-v2/models/VAE lora-dir D:/sd/novelai-webui-aki-v2/models/Lora gfpgan-models-path D:/sd/novelai-webui-aki-v2/models/GFPGAN esrgan-models-path D:/sd/novelai-webui-aki-v2/models/ESRGAN controlnet-dir D:/sd/novelai-webui-aki-v2/models/ControlNet 这里安装:

封面图片

一个非常有意思的项目可以用 SD 直接生成透明的 PNG 图片,也可以直接生成带有透明度分层的图片。

一个非常有意思的项目可以用 SD 直接生成透明的 PNG 图片,也可以直接生成带有透明度分层的图片。 这个想象力很大能带来很多玩法。也可以使用现有的 SD 社区模型。 项目介绍: LayerDiffusion使得大型已经过预训练的潜在扩散模型(latent diffusion model)能够创造透明图像。 这项技术不仅可以生成单独的透明图像,还能生成多层透明图层。它通过一种被称为“潜在透明度”的方法,将透明度(即 alpha 通道)整合到预训练的潜在扩散模型的潜在结构中。 这样做的好处是,它通过以潜在偏移的形式加入透明度,几乎不改变模型原有的潜在分布,从而保持了模型的高质量输出能力。基于这种方法,任何一个潜在扩散模型都可以通过对潜在空间的微调,转化为透明图像生成器。 我们训练这个模型时,使用了一种涉及人机互动的方法,收集了一百万组透明图像层数据。 我们的研究显示,这种潜在透明技术不仅可以应用于不同的开源图像生成器,还可以适配多种条件控制系统,实现例如基于前景/背景条件的层生成、层的联合生成、对层内容进行结构控制等多种应用。 一项用户研究发现,大多数情况下(97%),相比于之前的临时解决方案(如先生成图像再进行抠图处理),用户更喜欢我们直接生成的透明内容。用户还表示,我们生成的透明图像在质量上可媲美真实的商业级透明素材,例如 Adobe Stock 提供的素材。 论文地址:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人