Stability AI正式发布了DeepFloyd IF图像生成模型，这是一个有文本编码器和三个级联的diffusion模块组

Stability AI正式发布了DeepFloyd IF图像生成模型，这是一个有文本编码器和三个级联的diffusion模块组合的模型。这个模型的效率要比原有的satble diffusion效率要高很多。我尝试了一下，看起来效果也比SD2.0强一些。划重点，这个模型是认字的生成出来的英文非常工整。文章链接：可以在这里体验模型： Github：模型网站：

在Telegram中查看

相关推荐

Stability AI发布最新图像生成模型Stable Diffusion XL 1.0

Stability AI发布最新图像生成模型Stable Diffusion XL 1.0 今天，Stability AI 宣布推出 Stable Diffusion XL 1.0，这是该公司迄今为止描述为“最先进”的文本到图像模型。Stable Diffusion XL 1.0 可在上以开源形式使用，并提供给 Stability 的和消费者应用程序和。Stability 声称，与其前代产品相比，Stable Diffusion XL 1.0 提供了“更生动”和“更准确”的颜色，更好的对比度、阴影和照明效果。在接受采访时，Stability AI 的应用机器学习负责人Joe Penna 指出，Stable Diffusion XL 1.0 包含 35亿个参数，可以“在几秒钟内”生成多种长宽比的 100万像素分辨率的完整图像。“参数”是模型从训练数据中学习到的部分，基本上定义了模型在解决问题上的技能水平。上一代稳定扩散模型稳定扩散 XL 0.9 也可以生成更高分辨率的图像，但需要更多的计算能力。、

Stability AI推出适用于普通电脑的文本生成图像模型SD3 Medium

Stability AI推出适用于普通电脑的文本生成图像模型SD3 Medium Stable Diffusion 系列文本生成图形模型开发商 Stability AI 今天宣布基于 SD3 推出了新版本 SD3 Medium 版，该版本尺寸体积非常小只有 2B 参数，因此适合在消费级笔记本电脑、台式机和企业级 GPU 上运行。和之前的 SD 系列模型一样，SD3 Medium 版也是免费提供的，属于开放但非开源的模型，如果需要商业性使用则应当购买授权。Stable Diffusion 3 Medium 版具有以下特点：参数规模仅为 20 亿照片级真实感：克服手部和面部常见的瑕疵，无需复杂的工作流程即可生成高质量图像遵守复杂的提示词：可以理解涉及空间关系、构图元素、动作和风格的复杂提示词内容排版：在 Diffusion Transformer 架构的帮助下，大幅度改进生成文本内容时的伪影和拼写错误问题高效利用资源：占用的显存非常小，非常适合在消费级 PC 和笔记本电脑上运行并且不会降低性能微调：能够从小数据集中吸收细微的细节，因此也适合进行定制哪些消费级显卡 / 企业级显卡支持 SD3 Medium 版：Stability AI 与英伟达和 AMD 合作，在部分消费级和企业级显卡上优化 SD3 Medium 的推理，其中还为英伟达推出了特别版本。支持的英伟达显卡主要是 NVIDIA RTX 系列，Stability AI 利用 RTX 显卡和 TensorRT 来提升性能，其中 TensorRT 优化版本提供更好的性能，用户可以下载英伟达专版的 SD3 Medium。AMD 方面支持 AMD 最新的 APU、消费级 GPU 和米兰 300X 系列企业级 GPU，经过 AMD 优化后也可以使用 SD3 Medium，不过性能方面可能要比英伟达专版的要低些。从哪里获取 SD3 Medium 版：其中英伟达专版的 TensorRT 版 SD3 Medium 可以在这里下载： AMD 的通用版本可以在这里下载： ... PC版：手机版：

Stable Diffusion 是人工智能公司 Stability AI 背后的文本到图像模型，于 2022 年 8 月发布。

Stable Diffusion 是人工智能公司 Stability AI 背后的文本到图像模型，于 2022 年 8 月发布。Stability AI 首席执行官 Emad Mostaque 表示，Stable Diffusion 在所有渠道拥有超过 1000 万用户。如果我们推断一下《Midjourney》的数据和趋势，就会发现，通过官方的 Stable Diffusion 渠道，用户每天会生成 200 万张图片，而在发布一年多的时间里，这个数字已经达到了 6.9 亿张图像。如果加上其他流行模型（例如 Runway，我们单独统计）和 Stability AI 的官方渠道，使用 Stable Diffusion 创建的图像数量将增加到 125.9 亿张，占所有使用文本转文字创建的 AI 图像的 80%。 Adobe Firefly Adobe Adobe 推出了 Firefly，于 2023 年 3 月发布。上线 6 周内，用户创建了超过 1 亿资产。随着 Firefly 于 2023 年 5 月集成到 Adobe Photoshop，考虑到全球使用 Photoshop 的人数，图像数量呈指数级增长。 Adobe 在最新的新闻稿中分享了其 AI 图像统计数据：推出仅 3 个月，使用 Adobe Firefly 创建的图像数量就已达到 10 亿张。使用 Stable Diffusion、Adobe Firefly、Midjourney 和 DALLE-2 总共生成了超过 150 亿张人工智能创建的图像。这比 Shutterstock 的整个照片、矢量图和插图库还要多，而且是 Instagram 上传的图片数量的三分之一。

：Stability AI最新推出的高级文本到图像AI模型，适合在消费级PC、笔记本及企业级GPU上运行，有望成为文本到图像模型

：Stability AI最新推出的高级文本到图像AI模型，适合在消费级PC、笔记本及企业级GPU上运行，有望成为文本到图像模型的新标准 - Stability AI公开发布了Stable Diffusion 3 Medium图像生成模型，这是目前该公司最先进的开源文本到图像模型。 - Stable Diffusion 3 Medium是一个20亿参数量的模型，相比之前的模型有显著改进：整体图像质量和逼真度大幅提升，能够生成高质量的照片逼真图像；理解长难句子描述的能力增强；文字质量也有很大提升，减少拼写、字间距等错误。 - 该模型大小适中，非常适合在普通消费级PC和笔记本电脑上运行，也能在企业级GPU上充分发挥性能。它有望成为文本到图像模型的新标准。 - Stable Diffusion 3 Medium在Stability非商业研究社区许可证下对外开源。对于商业用途，鼓励使用新的Creator许可证。大规模商业使用还需联系Stability取得企业许可证。 - 用户可以通过Stability的API、Stable Assistant和Stable Artisan等渠道试用Stable Diffusion 3 Medium。 - Stability AI表示会根据用户反馈持续改进该模型，扩展其功能，提升性能。目标是为艺术创作和业余用户都设定一个新的标准。 - Stability AI坚持开放和负责任的AI实践，在模型的训练、测试、部署等各个阶段采取合理措施防止模型被恶意滥用。

Stability AI 发布了他们最强的图片生成模型 Stable Diffusion 3 的技术报告，披露了 SD3 的更多

Stability AI 发布了他们最强的图片生成模型 Stable Diffusion 3 的技术报告，披露了 SD3 的更多细节。据他们所说，SD3 在排版质量、美学质量和提示词理解上超过了目前所有的开源模型和商业模型，是目前最强的图片生成模型。技术报告要点如下： ◆根据人类偏好评估,SD3 在排版质量和对提示的理解程度上,均优于目前最先进的文本生成图像系统,例如 DALL·E 3、Midjourney v6 和 Ideogram v1。 ◆提出了新的多模态扩散 Transformer (Multimodal Diffusion Transformer,简称 MMDiT) 架构,其使用独立的权重集分别表示图像和语言。与 SD3 的先前版本相比,该架构改善了系统对文本的理解能力和拼写能力。 ◆SD3 8B 大小的模型可以在 GTX 4090 24G 显存上运行。 ◆SD3 将发布多个参数规模不等的模型方便在消费级硬件上运行，参数规模从 800M 到 8B 。 ◆SD3 架构以 Diffusion Transformer (简称"DiT",参见 Peebles & Xie,2023)为基础。鉴于文本嵌入和图像嵌入在概念上存在较大差异,我们为这两种模态使用了独立的权重集。 ◆通过这种方法,信息得以在图像 Token 和文本 Token 之间流动,从而提高了模型生成结果的整体理解力和排版质量。我们在论文中还讨论了如何轻松地将这一架构扩展至视频等多模态场景。 ◆SD3 采用了矫正流 (Rectified Flow,简称 RF) 的公式 (Liu et al.,2022;Albergo & Vanden-Eijnden,2022;Lipman et al.,2023),在训练过程中,数据和噪声被连接在一条线性轨迹上。这导致了更直的推理路径,从而可以使用更少的步骤进行采样。 ◆扩展矫正流 Transformer 模型：使用重新加权的 RF 公式和 MMDiT 主干网络,对文本到图像的合成任务开展了模型扩展研究。我们训练了一系列模型,其规模从 15 个。Transformer 块 (4.5 亿参数) 到 38 个块 (80 亿参数) 不等。

Stability AI推出Stable Diffusion 3 提示文本理解更好、图像质量更强

Stability AI推出Stable Diffusion 3 提示文本理解更好、图像质量更强 Stable Diffusion 3的参数在8亿80亿之间，也就是说Stable Diffusion 3可能是专为移动设备开发的，AI算力消耗将更低，推理速度却更快。目前，Stable Diffusion 3支持申请使用，未来会扩大测试范围。申请地址： Diffusion 3的技术内容，但指出其核心架构使用了Transformer和Flow FMatching（简称“FM”）。Transformer大家都很熟悉了，ChatGPT、T5 、BERT等很多著名模型都是基于该架构开发的。而FM是Meta AI和魏茨曼科学研究所在2022年10月发布的，一种全新高效建模、训练技术概念。Flow Matching论文地址： Matching简单介绍目前，很多文生图模型使用的是CNF（连续正规化流动）训练方法，主要使用常微分方程对流动进行建模，实现从一种已知分布到目标分布的平滑映射。但由于训练过程需要进行大量的微分方程模拟，会导致算力成本高、模型设计复杂、可解释性差等缺点。FM则是放弃微分方程的直接模拟,而是通过回归固定条件概率轨迹来实现无模拟训练。研究人员设计了条件概率分布与向量场的概念,利用边缘分布的结合可以建立总体目标概率轨迹与向量场,从而消除了模拟过程对梯度计算的影响。1）条件概率路径构建：FM需要给出一个目标概率路径,该路径从简单分布演变到逼近数据分布。然后利用条件概率路径构建了目标路径,这样每个样本有一个对应的条件路径。2）变换层：构成FM的基本单元，每个变换层都是可逆的。这意味着从输入到输出的每一步映射都可以精确地反转，从而允许从目标分布反推到原始分布。3）耦合层：将输入分成两部分，对其中一部分应用变换，而变换函数可以是任意的神经网络，其参数由另一部分决定，保证了变换的可逆性。目前，FM技术已在图像生成与超分辨率、图像理解、图像修复与填充、条件图像生成、图像风格迁移与合成、视频处理等领域得到广泛应用。Stable Diffusion 3案例展示本次的发布页面也是由Stable Diffusion 3生成的，提示词：史诗般的动漫艺术风格，一位巫师站在夜间的山顶上，向黑暗的天空施放咒语，上面写着由彩色能量生成的“Stable Diffusion 3”文字教室桌子上有一个红苹果，电影风格，背景的黑板上用粉笔写着“要么做大，要么回家”一名宇航员骑着一只穿着蓬蓬裙的猪，撑着一把粉色的伞，猪旁边的地上有一只戴着高帽的知更鸟，角落里写着"Stable Diffusion"的字样。一只变色龙，黑色背景，摄影风格。一辆跑车的夜间照片，侧面写有“SD3”字样，汽车在赛道上高速行驶，巨大的路标上写着“更快”的文字。波浪冲击苏格兰灯塔的鱼眼镜头照片，黑色波浪。 ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人