早上尝试Stable Cascade的时候,试了几张图发现 SC 模型生成图片质量比 SDXL 刚发布的时候好不少。

早上尝试Stable Cascade的时候,试了几张图发现 SC 模型生成图片质量比 SDXL 刚发布的时候好不少。 于是就做了一个更详细的测试,SC 和 Midjoureny 使用完全相同的提示词,Midjoureny不是用特殊的参数,一次生成 4 张,各选出一张比较好的进行测试。 下面是对应的测试图,先说我的结论: 在写实场景 SC 生成的内容在美学表现上和细节上跟 Midjourney 差别不是很大,细节上差一些,偶尔可以替代使用。 SC 由于模型规模的原因对于一些概念的理解不够,提示词响应比 SDXL 好但是比 Midjourney 要差。 整体美学表现上相比 SDXL 更发布的时候有大幅提高,虽然还是不如 Midjourney,但是风格表现上很相似,估计拿 MJ 图片做的训练。

相关推荐

封面图片

Midjourney危险了!Stable Diffusion最强模型SDXL已上线(含保姆级体验教程)!

Midjourney危险了!Stable Diffusion最强模型SDXL已上线(含保姆级体验教程)! 看到没多少人写sdxl,这里我就给想尝鲜的朋友,写一个如何快速体验SDXL效果的教程。 免下载模型,sdxl体验步骤: 1、sd为什么会搞出sdxl? 这次,SD看着营收上亿的Mj,终于坐不住了。 它发布了全新模型SDXL 1.0,号称是“迄今为止最牛逼的图像生成大模型”。 那你肯定好奇,为什么会搞出这样一个产品? 很简单,SD看到Mj赚了几个亿坐不住了。 我要是sd,我现在大腿都要拍肿了。 人家mj十几个人居然搞出来了上亿美元的收入,你sd那么多的人还在亏损??? 这不对标mj搞出个史诗级的新模型,你家投资人都坐不住了。 毕竟,搞研究是要花钱的,这次的sdxl很显然就是冲着后续抢用户+收费来的。 2、SDXL体验+测评效果总结 根据我的经验,SDXL是一个过渡期的产品,想要尝鲜的朋友一定不要错过。 首先要给第一次接触的朋友讲一下,作为一个拥有35亿参数基础模型和66亿参数模型的生物。 这个SDXL到底比之前几个版本的sd牛逼在哪里? (1)对撰写提示词的要求大大降低。 除了提示词更加精简之外,它的效果主要是体现在不需要质量提升词和负面提示词上。 你不需要输入masterpiece这些常见的品质优化词,就可以实现非常棒的画面效果。 同样的,你也不必像之前那样输入大量的负面提示词,来控制ai对画面的生成。 比如最常见的手部结构出问题,是大家能识别ai的好方法,而现在ai更加能够生成无缺陷的手部结构了。 (2)加强了对自然语言的理解能力。 这个其实也是为了解决目前撰写提示词上的痛点,比如目前ai绘画的提示词都是一个个用逗号连接起来的词条。 而到了SDXL这个版本,即使你输入一连串的自然对话,它也可以理解了。 也就是说,写提示词这件事儿,真的会越来越简单了。 (3)支持更大尺寸的照片,分辨率高很多。 比如你可以直接生成1024x1024大小的图片了。 之前你想直接出这类高清图片其实需要使用高清修复或者其他方法才能达到。 (4)ai终于会写字了。 SDXL已经能识别和生成文字了。

封面图片

Stable Diffusion发布了新的图像模型SDXL 0.9

Stable Diffusion发布了新的图像模型SDXL 0.9 这是文本到图像模型的一项突破性发展,相比前身在图像构成和细节上有显著的改进。SDXL 0.9的应用超越了传统的边界,可以用于电影、电视、音乐和教学视频,以及设计和工业用途。 SDXL 0.9可以在消费级GPU上运行,只需要Windows 10或11,或Linux操作系统,16GB RAM,以及至少有8GB VRAM的Nvidia GeForce RTX 20显卡(或更高标准)。Linux用户也可以使用配备16GB VRAM的兼容AMD卡。 SDXL 0.9的功能不仅限于基本的文本提示,还提供了如图像到图像提示(输入一张图像以获取该图像的变体)、修复(重构图像的缺失部分)和扩展(创建现有图像的无缝扩展)等功能。#SD 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

字节发布了一个用类似 SDXL Turbo 的模型SDXL-Lightning,只需几步即可生成高质量的 1024px 图像。

字节发布了一个用类似 SDXL Turbo 的模型SDXL-Lightning,只需几步即可生成高质量的 1024px 图像。 包括了 unet 模型和 Lora 模型都已经发布,Lora 模型可以用在其他 SDXL 模型上。感兴趣可以试试。 模型下载:

封面图片

Sora 的图片生成能力也非常牛皮。

Sora 的图片生成能力也非常牛皮。 早上拿手机看还没发现,在写实照片生成上的美学表现和细节已经比 Midjourney V6 要强了,这模型真的离谱。 注意看人脸的绒毛和皱纹。 Invalid media:

封面图片

Stability AI 发布了他们最强的图片生成模型 Stable Diffusion 3 的技术报告,披露了 SD3 的更多

Stability AI 发布了他们最强的图片生成模型 Stable Diffusion 3 的技术报告,披露了 SD3 的更多细节。 据他们所说,SD3 在排版质量、美学质量和提示词理解上超过了目前所有的开源模型和商业模型,是目前最强的图片生成模型。 技术报告要点如下: ◆根据人类偏好评估,SD3 在排版质量和对提示的理解程度上,均优于目前最先进的文本生成图像系统,例如 DALL·E 3、Midjourney v6 和 Ideogram v1。 ◆提出了新的多模态扩散 Transformer (Multimodal Diffusion Transformer,简称 MMDiT) 架构,其使用独立的权重集分别表示图像和语言。与 SD3 的先前版本相比,该架构改善了系统对文本的理解能力和拼写能力。 ◆SD3 8B 大小的模型可以在 GTX 4090 24G 显存上运行。 ◆SD3 将发布多个参数规模不等的模型方便在消费级硬件上运行,参数规模从 800M 到 8B 。 ◆SD3 架构以 Diffusion Transformer (简称"DiT",参见 Peebles & Xie,2023)为基础。鉴于文本嵌入和图像嵌入在概念上存在较大差异,我们为这两种模态使用了独立的权重集。 ◆通过这种方法,信息得以在图像 Token 和文本 Token 之间流动,从而提高了模型生成结果的整体理解力和排版质量。我们在论文中还讨论了如何轻松地将这一架构扩展至视频等多模态场景。 ◆SD3 采用了矫正流 (Rectified Flow,简称 RF) 的公式 (Liu et al.,2022;Albergo & Vanden-Eijnden,2022;Lipman et al.,2023),在训练过程中,数据和噪声被连接在一条线性轨迹上。这导致了更直的推理路径,从而可以使用更少的步骤进行采样。 ◆扩展矫正流 Transformer 模型:使用重新加权的 RF 公式和 MMDiT 主干网络,对文本到图像的合成任务开展了模型扩展研究。我们训练了一系列模型,其规模从 15 个 。Transformer 块 (4.5 亿参数) 到 38 个块 (80 亿参数) 不等。

封面图片

妈的 给字节道歉,下午SDXL-Lightning的 Unet 模型我用的时候参数搞错了。

妈的 给字节道歉,下午SDXL-Lightning的 Unet 模型我用的时候参数搞错了。 重新下了 CKPT 试了一下跟DreamShaper XL比差的不多,细节没有DreamShaper XL丰富,涂抹感比较重。 下面是具体的对比图片。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人