Stability AI 推出 Stable Audio，基于文本生成最长 90 秒音频

Stability AI 推出 Stable Audio，基于文本生成最长 90 秒音频 Stability AI 公司近日推出 Stable Audio，可以基于用户输入的文本内容，自动生成音乐或者音频。免费版 Stable Audio 可以生成最长 20 秒的音乐片段，而用户在购买 Pro 订阅之后，可以生成最长 90 秒的音频内容。 Stability AI 公司首席执行官表示：“我们希望音乐爱好者和创意专业人士使用 Stable Audio 工具，帮助生成新的内容，并期待能够激发无限的创造力”。

在Telegram中查看

相关推荐

Stable Audio 2.0 发布：生成最长 3 分钟音频，能帮音乐家补全创意作品

Stable Audio 2.0 发布：生成最长 3 分钟音频，能帮音乐家补全创意作品 Stability AI 宣布推出 Stability Audio 2.0，进一步为音频生成扩展了前奏、副歌、收尾和立体声效果等内容，最长可以生成 3 分钟的音频内容。 Stable Audio 2.0 扩充了生成功能之外，还提供了音频生成音频功能，基于用户上传的一小段音频内容，扩展生成、补充相关的音频内容。例如音乐家如果在创作某段音乐的时候“卡壳”了，可以上传某段 DEMO，要求 Stable Audio 2.0 补充完整歌曲，让你的各种小创意都能转换为完整的音频内容。 Stable Audio 2.0 还支持定制、微调生成后的音频内容，换句话说，如果你不喜欢音频中的某些内容，你可以根据自己的具体需求改变风格。Stability Audio 2.0 不仅能生成完整的音轨，还能帮助您制作各种声音和音频效果，从打字时发出的声音到人群背景声等等。来源，频道：@kejiqu 群组：@kejiquchat

Stable Audio Open 开源 AI 模型发布

Stable Audio Open 开源 AI 模型发布 Stability AI 立足 Stable Diffusion 文生图模型，进一步向音频领域拓展，推出了，可以基于用户输入的提示词，生成高质量音频样本。 Stable Audio Open 最长可以创建 47 秒的音乐，非常适合鼓点、乐器旋律、环境音和拟声音效，该开源模型基于 transforms 扩散模型（DiT），在自动编码器的潜在空间中操作，提高生成音频的质量和多样性。 Stable Audio Open 目前已经开源，感兴趣的用户可以在上试用。据说它使用了来自 FreeSound 和 Free Music Archive 等音乐库的 486000 多种采样进行训练。Stability AI 公司表示：“虽然它可以生成简短的音乐片段，但并不适合完整的歌曲、旋律或人声”。 Stable Audio Open 和 Stable Audio 2.0 不同是，前者为开源模型，专注于短音频片段和音效，而后者能够生成最长 3 分钟的完整音频。来源，频道：@kejiqu 群组：@kejiquchat

Stability AI发布免费音频生成工具可创作AI歌曲

Stability AI发布免费音频生成工具可创作AI歌曲而Stable Audio 2.0提供了完整的三分钟音频片段，这个长度的歌曲大多数适合电台播放，而所有上传的音频必须是无版权的。据了解，与OpenAI的音频生成模型Voice Engine只向一小部分用户开放不同，Stability AI通过其网站免费向公众提供Stable Audio，未来将很快提供API接口。Stability AI表示，Stable Audio 2.0与其早期版本的一个主要区别在于，它能够创建与真实歌曲相似的歌曲结构，包括有序幕、进展和尾声。不过，已经试玩Stable Audio 2.0的媒体表示，这个水平的AI歌曲距离帮助用户用音乐表达想法，差距依然比较大。例如，有用户用“带有美国风格的民谣流行歌曲”（美国乡村音乐）作为提示，Stable Audio生成的歌曲在某些部分听起来有山谷清晨的氛围，并且疑似加入了人声。理论上，Stable Audio 2.0的新功能允许用户调整生成的AI音频作品，使作品更符合用户的听歌风格。例如可以调整遵循提示程度，或设置转换所上传音频的哪一部分，用户还可以添加像人群的吼声或键盘敲击等音效。然而，这种AI歌曲最大的问题在于，让人感觉毫无灵魂。但这并不令人感到惊讶，因为这和其他大厂的AI音频问题一样。例如，如Meta和Google也一直在尝试AI音频生成，但两家公司都没有公开发布他们的模型，因为他们仍在收集开发者的反馈，来解决AI歌曲无灵魂的问题。Stability AI在一份新闻稿中说，Stable Audio是在AudioSparx的数据上训练的，后者拥有超过800，000个音频文件的库。不过，这些音频可能出现版权纠纷。Stability AI表示，作品被纳入AudioSparx的艺术家可以选择退出，以避免他们的作品用于训练模型。其实，使用版权音频训练模型是Stability AI的前音频副总裁Ed Newton-Rex在Stable Audio发布后不久就离开公司的原因之一。对于2.0版本，Stability AI说它与Audible Magic合作，使用其内容识别技术来追踪和阻止版权音频进入平台。总之，Stable Audio 2.0的确让AI歌曲比之前更像真正的歌曲，但还是没有完全达到这个目标。媒体表示，如果Stable Audio 2.0模型坚持添加某种人声，也许下一个版本的AI音频作品会出现更能令人分辨的语言。 ... PC版：手机版：

太惊艳了，昨天 Stability AI 推出了文生音频领域的大杀器：Stable Audio

太惊艳了，昨天 Stability AI 推出了文生音频领域的大杀器：Stable Audio 从放出的几个音乐demo来看完成度非常高，甚至有汉斯季默的味道用prompt的方式写歌，描述音乐流派、乐器、画面、感觉就可以产生一段音乐demo。能想到很多应用，比如很多助眠类App可以不用花钱买音乐了，影视制作，up主等等... 而且相比于SD糟糕的webui，Stablility AI 也许怕出现再一个midjourney，这次C端设计做得也十分优雅。整个网站设计透露优秀的平面设计审美。 Stability 从扔掉画师的饭碗开始砸音乐家饭碗 Invalid media:

Stability AI 发布用于生成声音和歌曲的开放式AI模型

Stability AI 发布用于生成声音和歌曲的开放式AI模型该模型使用来自免费音乐库 FreeSound 和免费音乐档案馆的约 486,000 个样本进行训练。Stability AI 公司称，该模型可用于为视频、电影和电视节目创建鼓点、乐器旋律、环境噪音和"制作元素"，也可用于"编辑"现有歌曲或将一首歌的风格（如流畅爵士乐）应用到另一首歌中。Stability AI公司在其公司博客上发表的一篇文章中写道："此次开源发布的一个主要好处是，用户可以根据自己的自定义音频数据对模型进行微调。例如，鼓手可以在自己的鼓声录音样本上进行微调，生成新的节拍。"不过，Stable Audio Open 也有其局限性。它不能生成完整的歌曲、旋律或人声，至少不能生成好的歌曲、旋律或人声。Stability AI 表示，它并没有为此进行优化，并建议希望获得这些功能的用户选择该公司的高级 Stable Audio 服务。Stable Audio Open 也不能用于商业用途，其服务条款禁止这样做。此外，它在不同音乐风格和文化或英语以外的语言描述中的表现也不尽相同，Stability AI 将这些偏差归咎于训练数据。"数据源可能缺乏多样性，所有文化在数据集中都不具有同等代表性，"Stability AI 公司在对模型的描述中写道。"模型生成的样本将反映训练数据的偏差"。稳定人工智能公司（Stability AI）长期以来一直在努力扭转业务颓势，最近，该公司负责生成音频的副总裁埃德-牛顿-雷克斯（Ed Newton-Rex）因不同意该公司关于在受版权保护的作品上训练生成人工智能模型构成"合理使用"的立场而辞职，从而引发争议。Stable Audio Open 似乎试图扭转这种说法，同时不着痕迹地宣传 Stability AI 的付费产品。随着包括 Stability 音乐生成器在内的音乐生成器越来越受欢迎，版权以及一些生成器创建者可能滥用版权的方式正成为人们关注的焦点。5 月，代表比利-乔尔（Billy Joel）、Doja Cat 和 Lil Nas X 等艺术家的索尼音乐公司致函700 家人工智能公司，警告不要"未经授权使用"其内容来训练音频生成器。今年 3 月，美国田纳西州签署了第一部旨在遏制人工智能在音乐领域滥用的法律。 ... PC版：手机版：

Stability AI推出适用于普通电脑的文本生成图像模型SD3 Medium

Stability AI推出适用于普通电脑的文本生成图像模型SD3 Medium Stable Diffusion 系列文本生成图形模型开发商 Stability AI 今天宣布基于 SD3 推出了新版本 SD3 Medium 版，该版本尺寸体积非常小只有 2B 参数，因此适合在消费级笔记本电脑、台式机和企业级 GPU 上运行。和之前的 SD 系列模型一样，SD3 Medium 版也是免费提供的，属于开放但非开源的模型，如果需要商业性使用则应当购买授权。Stable Diffusion 3 Medium 版具有以下特点：参数规模仅为 20 亿照片级真实感：克服手部和面部常见的瑕疵，无需复杂的工作流程即可生成高质量图像遵守复杂的提示词：可以理解涉及空间关系、构图元素、动作和风格的复杂提示词内容排版：在 Diffusion Transformer 架构的帮助下，大幅度改进生成文本内容时的伪影和拼写错误问题高效利用资源：占用的显存非常小，非常适合在消费级 PC 和笔记本电脑上运行并且不会降低性能微调：能够从小数据集中吸收细微的细节，因此也适合进行定制哪些消费级显卡 / 企业级显卡支持 SD3 Medium 版：Stability AI 与英伟达和 AMD 合作，在部分消费级和企业级显卡上优化 SD3 Medium 的推理，其中还为英伟达推出了特别版本。支持的英伟达显卡主要是 NVIDIA RTX 系列，Stability AI 利用 RTX 显卡和 TensorRT 来提升性能，其中 TensorRT 优化版本提供更好的性能，用户可以下载英伟达专版的 SD3 Medium。AMD 方面支持 AMD 最新的 APU、消费级 GPU 和米兰 300X 系列企业级 GPU，经过 AMD 优化后也可以使用 SD3 Medium，不过性能方面可能要比英伟达专版的要低些。从哪里获取 SD3 Medium 版：其中英伟达专版的 TensorRT 版 SD3 Medium 可以在这里下载： AMD 的通用版本可以在这里下载： ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人