Stability AI产量很高啊,推出了一个新的 AI 图像生成模型Stable Cascade,还会发布对应的微调、Cont

Stability AI产量很高啊,推出了一个新的 AI 图像生成模型Stable Cascade,还会发布对应的微调、ControlNet 和 LoRA 训练的脚本。 这个模型基于Würstchen架构,可以显著降低模型训练的算力成本,比 SD2.1 的算力成本降低了 10 倍左右。另外推理速度会比现有的 SD 模型快一倍左右。 更多功能: 除了标准的文本到图像生成之外,Stable Cascade 还可以执行图像变化和图像到图像生成。 会跟随模型一起发布的 Controlnet: 局部重绘:输入与文本提示附带的蒙版配对的图像。该模型根据提供的文本提示填充图像的遮罩部分。 Canny Edge:通过跟踪输入到模型的现有图像的边缘来生成新图像。该测试也可以从草图进行扩展。 2x超分辨率:也可用于C阶段生成的潜在空间。 了解更多:

相关推荐

封面图片

Stability AI试图通过新的图像生成人工智能模型保持领先地位

Stability AI试图通过新的图像生成人工智能模型保持领先地位 Stable Cascade 可以生成照片,并对所创建的图片进行修改,或尝试提高现有图片的分辨率。其他文本到图片的编辑功能还包括内画和外画(模型只对图片的特定部分进行填充编辑),以及可视边缘(用户可利用现有图片的边缘制作新照片)。根据提示"一张拟人企鹅坐在咖啡馆里看书喝咖啡的电影照片"生成的Stable Cascade图像。新模型可在GitHub 上供研究人员使用,但不能用于商业用途。在Google甚至苹果等公司发布自己的图像生成模型时,新模型也带来了更多选择。与 Stability 的旗舰产品 Stable Diffusion 模型不同,Stable Cascade 并不是一个大型语言模型,而是三个不同的模型,它们都依赖于Würstchen 架构。Stable Cascade与其他模型的推理时间比较将请求分解成更小的比特后,请求所需的内存更少(在那些很难找到的 GPU 上训练的时间也更少),运行速度更快,同时在"提示对齐和美学质量"方面表现更佳。创建一幅图像大约需要 10 秒,而目前使用的 SDXL 模型需要 22 秒。Stability AI公司帮助普及了Stable Diffusion方法,同时也成为了几起诉讼的对象,这些诉讼指控Stable Diffusion公司在未经权利人许可的情况下对受版权保护的数据进行了训练 - Getty图片公司对Stability AI公司的诉讼将于 12 月开庭审理 。该公司于 12 月开始通过订阅的方式提供商业许可,并表示这是帮助其研究获得资金所必需的。 ... PC版: 手机版:

封面图片

Stability AI发布最新图像生成模型Stable Diffusion XL 1.0

Stability AI发布最新图像生成模型Stable Diffusion XL 1.0 今天,Stability AI 宣布推出 Stable Diffusion XL 1.0,这是该公司迄今为止描述为“最先进”的文本到图像模型。Stable Diffusion XL 1.0 可在上以开源形式使用,并提供给 Stability 的和消费者应用程序和 。Stability 声称,与其前代产品相比,Stable Diffusion XL 1.0 提供了“更生动”和“更准确”的颜色,更好的对比度、阴影和照明效果。 在接受采访时,Stability AI 的应用机器学习负责人Joe Penna 指出,Stable Diffusion XL 1.0 包含 35亿个参数,可以“在几秒钟内”生成多种长宽比的 100万像素分辨率的完整图像。“参数”是模型从训练数据中学习到的部分,基本上定义了模型在解决问题上的技能水平。 上一代稳定扩散模型稳定扩散 XL 0.9 也可以生成更高分辨率的图像,但需要更多的计算能力。 、

封面图片

Stable Diffusion发布了新的图像模型SDXL 0.9

Stable Diffusion发布了新的图像模型SDXL 0.9 这是文本到图像模型的一项突破性发展,相比前身在图像构成和细节上有显著的改进。SDXL 0.9的应用超越了传统的边界,可以用于电影、电视、音乐和教学视频,以及设计和工业用途。 SDXL 0.9可以在消费级GPU上运行,只需要Windows 10或11,或Linux操作系统,16GB RAM,以及至少有8GB VRAM的Nvidia GeForce RTX 20显卡(或更高标准)。Linux用户也可以使用配备16GB VRAM的兼容AMD卡。 SDXL 0.9的功能不仅限于基本的文本提示,还提供了如图像到图像提示(输入一张图像以获取该图像的变体)、修复(重构图像的缺失部分)和扩展(创建现有图像的无缝扩展)等功能。#SD 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

Stability AI正式发布了他们从文字生成动画的工具Stable Animation,感觉效果和能力类似于Gen-1,主要

Stability AI正式发布了他们从文字生成动画的工具Stable Animation,感觉效果和能力类似于Gen-1,主要包括下面三种能力: 文本到动画:用户输入文本提示(与 Stable Diffusion 一样)并调整各种参数以生成动画。 文本输入+初始图像输入:用户提供初始图像作为动画的起点。文本提示与图像结合使用以产生最终输出动画。 输入视频 + 文本输入:用户提供初始视频作为动画的基础。通过调整各种参数,获得了最终的输出动画,该动画还由文本提示引导。

封面图片

Lexica在线Stable Diffusion prompt,文本生成图像搜索引擎,文本生成图像检索的平台,Lexica目前包

Lexica 在线Stable Diffusion prompt,文本生成图像搜索引擎,文本生成图像检索的平台,Lexica目前包含1000W+ 张由 Stable Diffusion 模型生成的网络图片和提示语prompt,这些prompt描述语可以直接复制,搜索的时候只需要输入关键词,就能查看它相关的网络用户创作艺术图

封面图片

Stability AI 发布了他们最强的图片生成模型 Stable Diffusion 3 的技术报告,披露了 SD3 的更多

Stability AI 发布了他们最强的图片生成模型 Stable Diffusion 3 的技术报告,披露了 SD3 的更多细节。 据他们所说,SD3 在排版质量、美学质量和提示词理解上超过了目前所有的开源模型和商业模型,是目前最强的图片生成模型。 技术报告要点如下: ◆根据人类偏好评估,SD3 在排版质量和对提示的理解程度上,均优于目前最先进的文本生成图像系统,例如 DALL·E 3、Midjourney v6 和 Ideogram v1。 ◆提出了新的多模态扩散 Transformer (Multimodal Diffusion Transformer,简称 MMDiT) 架构,其使用独立的权重集分别表示图像和语言。与 SD3 的先前版本相比,该架构改善了系统对文本的理解能力和拼写能力。 ◆SD3 8B 大小的模型可以在 GTX 4090 24G 显存上运行。 ◆SD3 将发布多个参数规模不等的模型方便在消费级硬件上运行,参数规模从 800M 到 8B 。 ◆SD3 架构以 Diffusion Transformer (简称"DiT",参见 Peebles & Xie,2023)为基础。鉴于文本嵌入和图像嵌入在概念上存在较大差异,我们为这两种模态使用了独立的权重集。 ◆通过这种方法,信息得以在图像 Token 和文本 Token 之间流动,从而提高了模型生成结果的整体理解力和排版质量。我们在论文中还讨论了如何轻松地将这一架构扩展至视频等多模态场景。 ◆SD3 采用了矫正流 (Rectified Flow,简称 RF) 的公式 (Liu et al.,2022;Albergo & Vanden-Eijnden,2022;Lipman et al.,2023),在训练过程中,数据和噪声被连接在一条线性轨迹上。这导致了更直的推理路径,从而可以使用更少的步骤进行采样。 ◆扩展矫正流 Transformer 模型:使用重新加权的 RF 公式和 MMDiT 主干网络,对文本到图像的合成任务开展了模型扩展研究。我们训练了一系列模型,其规模从 15 个 。Transformer 块 (4.5 亿参数) 到 38 个块 (80 亿参数) 不等。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人