太惊艳了，昨天 Stability AI 推出了文生音频领域的大杀器：Stable Audio

太惊艳了，昨天 Stability AI 推出了文生音频领域的大杀器：Stable Audio 从放出的几个音乐demo来看完成度非常高，甚至有汉斯季默的味道用prompt的方式写歌，描述音乐流派、乐器、画面、感觉就可以产生一段音乐demo。能想到很多应用，比如很多助眠类App可以不用花钱买音乐了，影视制作，up主等等... 而且相比于SD糟糕的webui，Stablility AI 也许怕出现再一个midjourney，这次C端设计做得也十分优雅。整个网站设计透露优秀的平面设计审美。 Stability 从扔掉画师的饭碗开始砸音乐家饭碗 Invalid media:

在Telegram中查看

相关推荐

Stability AI 推出 Stable Audio，基于文本生成最长 90 秒音频

Stability AI 推出 Stable Audio，基于文本生成最长 90 秒音频 Stability AI 公司近日推出 Stable Audio，可以基于用户输入的文本内容，自动生成音乐或者音频。免费版 Stable Audio 可以生成最长 20 秒的音乐片段，而用户在购买 Pro 订阅之后，可以生成最长 90 秒的音频内容。 Stability AI 公司首席执行官表示：“我们希望音乐爱好者和创意专业人士使用 Stable Audio 工具，帮助生成新的内容，并期待能够激发无限的创造力”。

Stability AI 推出文生图聊天机器人 Stable Assistant

Stability AI 推出文生图聊天机器人 Stable Assistant 据 Statbility AI 官方消息，旗下文生图聊天机器人现已开始测试，将会在不久后开放。 Stable Assistant搭载 Stable Diffusion3和 Stable LM212B等多款文生图模型，可根据用户需求生成不同图片。Stable Assistant 具备出色的多主题提示、图像质量和拼写能力它擅长根据对话提示生成图像、提供知识性回答、帮助写作项目，并用匹配的图像增强内容。标签: #Stability #AI 频道: @GodlyNews1 投稿: @GodlyNewsBot

Stable Audio 2.0 发布：生成最长 3 分钟音频，能帮音乐家补全创意作品

Stable Audio 2.0 发布：生成最长 3 分钟音频，能帮音乐家补全创意作品 Stability AI 宣布推出 Stability Audio 2.0，进一步为音频生成扩展了前奏、副歌、收尾和立体声效果等内容，最长可以生成 3 分钟的音频内容。 Stable Audio 2.0 扩充了生成功能之外，还提供了音频生成音频功能，基于用户上传的一小段音频内容，扩展生成、补充相关的音频内容。例如音乐家如果在创作某段音乐的时候“卡壳”了，可以上传某段 DEMO，要求 Stable Audio 2.0 补充完整歌曲，让你的各种小创意都能转换为完整的音频内容。 Stable Audio 2.0 还支持定制、微调生成后的音频内容，换句话说，如果你不喜欢音频中的某些内容，你可以根据自己的具体需求改变风格。Stability Audio 2.0 不仅能生成完整的音轨，还能帮助您制作各种声音和音频效果，从打字时发出的声音到人群背景声等等。来源，频道：@kejiqu 群组：@kejiquchat

Stability AI推出了更小、更高效的Stable LM 2 1.6B语言模型

Stability AI推出了更小、更高效的Stable LM 2 1.6B语言模型 Stable LM是一种文本内容生成 LLM，稳定人工智能公司于 2023 年 4 月首次推出了 30 亿和 70 亿参数模型。新的 StableLM 模型实际上是 Stability AI 在 2024 年发布的第二个模型，此前该公司在本周早些时候发布了 Stable Code 3B。新的 Stable LM 模型结构紧凑、功能强大，旨在降低门槛，让更多开发人员能够参与到生成式人工智能生态系统中，并将英语、西班牙语、德语、意大利语、法语、葡萄牙语和荷兰语等七种语言的多语言数据纳入其中。该模型利用语言建模方面的最新算法进步，实现了 Stability AI 所希望的速度与性能之间的最佳平衡。Stability AI 公司语言团队负责人卡洛斯-里克尔梅（Carlos Riquelme）告诉 VentureBeat："一般来说，在类似数据上用类似的训练配方训练出来的大型模型往往比小型模型表现更好。不过，随着时间的推移，随着新模型能够实现更好的算法，并在更多和更高质量的数据上进行训练，我们有时会看到最近的较小模型表现优于旧的较大模型。"据 Stability AI 称，该模型在大多数基准测试中的表现都优于其他参数低于 20 亿的小型语言模型，包括微软的 Phi-2（27 亿）、 TinyLlama 1.1B 和 Falcon 1B。较小的新型 Stable LM 甚至能够超越一些较大的型号，包括 Stability AI 早先推出的 Stable LM 3B 型号。Riquelme 说："Stable LM 2 1.6B。比几个月前训练的一些更大的型号性能更好。考虑到电脑、电视机或微型芯片类似的趋势，它们随着时间的推移变得更小、更薄、更好。"需要明确的是，较小的 Stable LM 2 1.6B 由于体积小，因而确实存在一些缺点。由于小型、低容量语言模型的特性，Stable LM 2 1.6B 可能同样会表现出一些常见问题，如高幻觉率或潜在的有毒语言。在过去几个月里，Stability AI 一直在研究更小更强大的 LLM 选项。2023 年 12 月， StableLM Zephyr 3B型号发布，与 4 月份发布的初始型号相比，它的尺寸更小，但性能更强。新的 Stable LM 2 模型在更多数据上进行了训练，包括除英语外的 6 种语言（西班牙语、德语、意大利语、法语、葡萄牙语和荷兰语）的多语言文档。Riquelme 强调的另一个有趣的方面是在训练过程中向模型展示数据的顺序。他指出，在不同的训练阶段关注不同类型的数据可能会有所收获。更进一步的是，Stability AI 正在提供预训练和微调选项的新模型，以及一种研究人员称之为"......预训练冷却前的最后一个模型检查点"的格式。里克尔梅说："我们的目标是为个人开发者提供更多的工具和工件，以便他们在现有模型的基础上进行创新、改造和构建。在这里，我们提供了一个具体的半成品模型供人们使用。"在训练过程中，模型会依次更新，其性能也会随之提高。在这种情况下，第一个模型什么都不知道，而最后一个模型已经消耗了数据的大部分内容，并有望学到这些内容。同时，模型在训练快结束时可能会变得不那么灵活，因为它们是被迫结束学习的。他说："我们决定在开始最后一个阶段的训练之前，以目前的形式提供模型，这样希望可以更容易地将它专门用于人们可能想要使用的其他任务或数据集。我们不确定这样做的效果是否会很好，但我们真的相信人们有能力以令人惊叹的方式利用新工具和模型。" ... PC版：手机版：

Stability AI产量很高啊，推出了一个新的 AI 图像生成模型Stable Cascade，还会发布对应的微调、Cont

Stability AI产量很高啊，推出了一个新的 AI 图像生成模型Stable Cascade，还会发布对应的微调、ControlNet 和 LoRA 训练的脚本。这个模型基于Würstchen架构，可以显著降低模型训练的算力成本，比 SD2.1 的算力成本降低了 10 倍左右。另外推理速度会比现有的 SD 模型快一倍左右。更多功能：除了标准的文本到图像生成之外，Stable Cascade 还可以执行图像变化和图像到图像生成。会跟随模型一起发布的 Controlnet：局部重绘：输入与文本提示附带的蒙版配对的图像。该模型根据提供的文本提示填充图像的遮罩部分。 Canny Edge：通过跟踪输入到模型的现有图像的边缘来生成新图像。该测试也可以从草图进行扩展。 2x超分辨率：也可用于C阶段生成的潜在空间。了解更多：

Stability AI推出Stable Diffusion 3 提示文本理解更好、图像质量更强

Stability AI推出Stable Diffusion 3 提示文本理解更好、图像质量更强 Stable Diffusion 3的参数在8亿80亿之间，也就是说Stable Diffusion 3可能是专为移动设备开发的，AI算力消耗将更低，推理速度却更快。目前，Stable Diffusion 3支持申请使用，未来会扩大测试范围。申请地址： Diffusion 3的技术内容，但指出其核心架构使用了Transformer和Flow FMatching（简称“FM”）。Transformer大家都很熟悉了，ChatGPT、T5 、BERT等很多著名模型都是基于该架构开发的。而FM是Meta AI和魏茨曼科学研究所在2022年10月发布的，一种全新高效建模、训练技术概念。Flow Matching论文地址： Matching简单介绍目前，很多文生图模型使用的是CNF（连续正规化流动）训练方法，主要使用常微分方程对流动进行建模，实现从一种已知分布到目标分布的平滑映射。但由于训练过程需要进行大量的微分方程模拟，会导致算力成本高、模型设计复杂、可解释性差等缺点。FM则是放弃微分方程的直接模拟,而是通过回归固定条件概率轨迹来实现无模拟训练。研究人员设计了条件概率分布与向量场的概念,利用边缘分布的结合可以建立总体目标概率轨迹与向量场,从而消除了模拟过程对梯度计算的影响。1）条件概率路径构建：FM需要给出一个目标概率路径,该路径从简单分布演变到逼近数据分布。然后利用条件概率路径构建了目标路径,这样每个样本有一个对应的条件路径。2）变换层：构成FM的基本单元，每个变换层都是可逆的。这意味着从输入到输出的每一步映射都可以精确地反转，从而允许从目标分布反推到原始分布。3）耦合层：将输入分成两部分，对其中一部分应用变换，而变换函数可以是任意的神经网络，其参数由另一部分决定，保证了变换的可逆性。目前，FM技术已在图像生成与超分辨率、图像理解、图像修复与填充、条件图像生成、图像风格迁移与合成、视频处理等领域得到广泛应用。Stable Diffusion 3案例展示本次的发布页面也是由Stable Diffusion 3生成的，提示词：史诗般的动漫艺术风格，一位巫师站在夜间的山顶上，向黑暗的天空施放咒语，上面写着由彩色能量生成的“Stable Diffusion 3”文字教室桌子上有一个红苹果，电影风格，背景的黑板上用粉笔写着“要么做大，要么回家”一名宇航员骑着一只穿着蓬蓬裙的猪，撑着一把粉色的伞，猪旁边的地上有一只戴着高帽的知更鸟，角落里写着"Stable Diffusion"的字样。一只变色龙，黑色背景，摄影风格。一辆跑车的夜间照片，侧面写有“SD3”字样，汽车在赛道上高速行驶，巨大的路标上写着“更快”的文字。波浪冲击苏格兰灯塔的鱼眼镜头照片，黑色波浪。 ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人