Stable Diffusion发布了新的图像模型SDXL 0.9

Stable Diffusion发布了新的图像模型SDXL 0.9 这是文本到图像模型的一项突破性发展,相比前身在图像构成和细节上有显著的改进。SDXL 0.9的应用超越了传统的边界,可以用于电影、电视、音乐和教学视频,以及设计和工业用途。 SDXL 0.9可以在消费级GPU上运行,只需要Windows 10或11,或Linux操作系统,16GB RAM,以及至少有8GB VRAM的Nvidia GeForce RTX 20显卡(或更高标准)。Linux用户也可以使用配备16GB VRAM的兼容AMD卡。 SDXL 0.9的功能不仅限于基本的文本提示,还提供了如图像到图像提示(输入一张图像以获取该图像的变体)、修复(重构图像的缺失部分)和扩展(创建现有图像的无缝扩展)等功能。#SD 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

相关推荐

封面图片

Midjourney危险了!Stable Diffusion最强模型SDXL已上线(含保姆级体验教程)!

Midjourney危险了!Stable Diffusion最强模型SDXL已上线(含保姆级体验教程)! 看到没多少人写sdxl,这里我就给想尝鲜的朋友,写一个如何快速体验SDXL效果的教程。 免下载模型,sdxl体验步骤: 1、sd为什么会搞出sdxl? 这次,SD看着营收上亿的Mj,终于坐不住了。 它发布了全新模型SDXL 1.0,号称是“迄今为止最牛逼的图像生成大模型”。 那你肯定好奇,为什么会搞出这样一个产品? 很简单,SD看到Mj赚了几个亿坐不住了。 我要是sd,我现在大腿都要拍肿了。 人家mj十几个人居然搞出来了上亿美元的收入,你sd那么多的人还在亏损??? 这不对标mj搞出个史诗级的新模型,你家投资人都坐不住了。 毕竟,搞研究是要花钱的,这次的sdxl很显然就是冲着后续抢用户+收费来的。 2、SDXL体验+测评效果总结 根据我的经验,SDXL是一个过渡期的产品,想要尝鲜的朋友一定不要错过。 首先要给第一次接触的朋友讲一下,作为一个拥有35亿参数基础模型和66亿参数模型的生物。 这个SDXL到底比之前几个版本的sd牛逼在哪里? (1)对撰写提示词的要求大大降低。 除了提示词更加精简之外,它的效果主要是体现在不需要质量提升词和负面提示词上。 你不需要输入masterpiece这些常见的品质优化词,就可以实现非常棒的画面效果。 同样的,你也不必像之前那样输入大量的负面提示词,来控制ai对画面的生成。 比如最常见的手部结构出问题,是大家能识别ai的好方法,而现在ai更加能够生成无缺陷的手部结构了。 (2)加强了对自然语言的理解能力。 这个其实也是为了解决目前撰写提示词上的痛点,比如目前ai绘画的提示词都是一个个用逗号连接起来的词条。 而到了SDXL这个版本,即使你输入一连串的自然对话,它也可以理解了。 也就是说,写提示词这件事儿,真的会越来越简单了。 (3)支持更大尺寸的照片,分辨率高很多。 比如你可以直接生成1024x1024大小的图片了。 之前你想直接出这类高清图片其实需要使用高清修复或者其他方法才能达到。 (4)ai终于会写字了。 SDXL已经能识别和生成文字了。

封面图片

Stable Diffusion 3 大模型发布

Stable Diffusion 3 大模型发布 Stability AI 今天发布了 Stable Diffusion 3 的早期预览版,称该模型为其最强大的文本到图像模型,在多主题提示、图像质量和拼写能力方面的性能得到了极大提高。Stable Diffusion 3 模型套件目前的参数范围为 800M 到 8B。早期预览的候补名单也已经开放。

封面图片

Stability AI发布最新图像生成模型Stable Diffusion XL 1.0

Stability AI发布最新图像生成模型Stable Diffusion XL 1.0 今天,Stability AI 宣布推出 Stable Diffusion XL 1.0,这是该公司迄今为止描述为“最先进”的文本到图像模型。Stable Diffusion XL 1.0 可在上以开源形式使用,并提供给 Stability 的和消费者应用程序和 。Stability 声称,与其前代产品相比,Stable Diffusion XL 1.0 提供了“更生动”和“更准确”的颜色,更好的对比度、阴影和照明效果。 在接受采访时,Stability AI 的应用机器学习负责人Joe Penna 指出,Stable Diffusion XL 1.0 包含 35亿个参数,可以“在几秒钟内”生成多种长宽比的 100万像素分辨率的完整图像。“参数”是模型从训练数据中学习到的部分,基本上定义了模型在解决问题上的技能水平。 上一代稳定扩散模型稳定扩散 XL 0.9 也可以生成更高分辨率的图像,但需要更多的计算能力。 、

封面图片

Stability AI产量很高啊,推出了一个新的 AI 图像生成模型Stable Cascade,还会发布对应的微调、Cont

Stability AI产量很高啊,推出了一个新的 AI 图像生成模型Stable Cascade,还会发布对应的微调、ControlNet 和 LoRA 训练的脚本。 这个模型基于Würstchen架构,可以显著降低模型训练的算力成本,比 SD2.1 的算力成本降低了 10 倍左右。另外推理速度会比现有的 SD 模型快一倍左右。 更多功能: 除了标准的文本到图像生成之外,Stable Cascade 还可以执行图像变化和图像到图像生成。 会跟随模型一起发布的 Controlnet: 局部重绘:输入与文本提示附带的蒙版配对的图像。该模型根据提供的文本提示填充图像的遮罩部分。 Canny Edge:通过跟踪输入到模型的现有图像的边缘来生成新图像。该测试也可以从草图进行扩展。 2x超分辨率:也可用于C阶段生成的潜在空间。 了解更多:

封面图片

字节发布了一个用类似 SDXL Turbo 的模型SDXL-Lightning,只需几步即可生成高质量的 1024px 图像。

字节发布了一个用类似 SDXL Turbo 的模型SDXL-Lightning,只需几步即可生成高质量的 1024px 图像。 包括了 unet 模型和 Lora 模型都已经发布,Lora 模型可以用在其他 SDXL 模型上。感兴趣可以试试。 模型下载:

封面图片

Stability AI 发布了他们最强的图片生成模型 Stable Diffusion 3 的技术报告,披露了 SD3 的更多

Stability AI 发布了他们最强的图片生成模型 Stable Diffusion 3 的技术报告,披露了 SD3 的更多细节。 据他们所说,SD3 在排版质量、美学质量和提示词理解上超过了目前所有的开源模型和商业模型,是目前最强的图片生成模型。 技术报告要点如下: ◆根据人类偏好评估,SD3 在排版质量和对提示的理解程度上,均优于目前最先进的文本生成图像系统,例如 DALL·E 3、Midjourney v6 和 Ideogram v1。 ◆提出了新的多模态扩散 Transformer (Multimodal Diffusion Transformer,简称 MMDiT) 架构,其使用独立的权重集分别表示图像和语言。与 SD3 的先前版本相比,该架构改善了系统对文本的理解能力和拼写能力。 ◆SD3 8B 大小的模型可以在 GTX 4090 24G 显存上运行。 ◆SD3 将发布多个参数规模不等的模型方便在消费级硬件上运行,参数规模从 800M 到 8B 。 ◆SD3 架构以 Diffusion Transformer (简称"DiT",参见 Peebles & Xie,2023)为基础。鉴于文本嵌入和图像嵌入在概念上存在较大差异,我们为这两种模态使用了独立的权重集。 ◆通过这种方法,信息得以在图像 Token 和文本 Token 之间流动,从而提高了模型生成结果的整体理解力和排版质量。我们在论文中还讨论了如何轻松地将这一架构扩展至视频等多模态场景。 ◆SD3 采用了矫正流 (Rectified Flow,简称 RF) 的公式 (Liu et al.,2022;Albergo & Vanden-Eijnden,2022;Lipman et al.,2023),在训练过程中,数据和噪声被连接在一条线性轨迹上。这导致了更直的推理路径,从而可以使用更少的步骤进行采样。 ◆扩展矫正流 Transformer 模型:使用重新加权的 RF 公式和 MMDiT 主干网络,对文本到图像的合成任务开展了模型扩展研究。我们训练了一系列模型,其规模从 15 个 。Transformer 块 (4.5 亿参数) 到 38 个块 (80 亿参数) 不等。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人