Stable Audio Open 开源 AI 模型发布

Stable Audio Open 开源 AI 模型发布 Stability AI 立足 Stable Diffusion 文生图模型，进一步向音频领域拓展，推出了，可以基于用户输入的提示词，生成高质量音频样本。 Stable Audio Open 最长可以创建 47 秒的音乐，非常适合鼓点、乐器旋律、环境音和拟声音效，该开源模型基于 transforms 扩散模型（DiT），在自动编码器的潜在空间中操作，提高生成音频的质量和多样性。 Stable Audio Open 目前已经开源，感兴趣的用户可以在上试用。据说它使用了来自 FreeSound 和 Free Music Archive 等音乐库的 486000 多种采样进行训练。Stability AI 公司表示：“虽然它可以生成简短的音乐片段，但并不适合完整的歌曲、旋律或人声”。 Stable Audio Open 和 Stable Audio 2.0 不同是，前者为开源模型，专注于短音频片段和音效，而后者能够生成最长 3 分钟的完整音频。来源，频道：@kejiqu 群组：@kejiquchat

在Telegram中查看

相关推荐

Stability AI 推出 Stable Audio，基于文本生成最长 90 秒音频

Stability AI 推出 Stable Audio，基于文本生成最长 90 秒音频 Stability AI 公司近日推出 Stable Audio，可以基于用户输入的文本内容，自动生成音乐或者音频。免费版 Stable Audio 可以生成最长 20 秒的音乐片段，而用户在购买 Pro 订阅之后，可以生成最长 90 秒的音频内容。 Stability AI 公司首席执行官表示：“我们希望音乐爱好者和创意专业人士使用 Stable Audio 工具，帮助生成新的内容，并期待能够激发无限的创造力”。

Stability AI 发布用于生成声音和歌曲的开放式AI模型

Stability AI 发布用于生成声音和歌曲的开放式AI模型该模型使用来自免费音乐库 FreeSound 和免费音乐档案馆的约 486,000 个样本进行训练。Stability AI 公司称，该模型可用于为视频、电影和电视节目创建鼓点、乐器旋律、环境噪音和"制作元素"，也可用于"编辑"现有歌曲或将一首歌的风格（如流畅爵士乐）应用到另一首歌中。Stability AI公司在其公司博客上发表的一篇文章中写道："此次开源发布的一个主要好处是，用户可以根据自己的自定义音频数据对模型进行微调。例如，鼓手可以在自己的鼓声录音样本上进行微调，生成新的节拍。"不过，Stable Audio Open 也有其局限性。它不能生成完整的歌曲、旋律或人声，至少不能生成好的歌曲、旋律或人声。Stability AI 表示，它并没有为此进行优化，并建议希望获得这些功能的用户选择该公司的高级 Stable Audio 服务。Stable Audio Open 也不能用于商业用途，其服务条款禁止这样做。此外，它在不同音乐风格和文化或英语以外的语言描述中的表现也不尽相同，Stability AI 将这些偏差归咎于训练数据。"数据源可能缺乏多样性，所有文化在数据集中都不具有同等代表性，"Stability AI 公司在对模型的描述中写道。"模型生成的样本将反映训练数据的偏差"。稳定人工智能公司（Stability AI）长期以来一直在努力扭转业务颓势，最近，该公司负责生成音频的副总裁埃德-牛顿-雷克斯（Ed Newton-Rex）因不同意该公司关于在受版权保护的作品上训练生成人工智能模型构成"合理使用"的立场而辞职，从而引发争议。Stable Audio Open 似乎试图扭转这种说法，同时不着痕迹地宣传 Stability AI 的付费产品。随着包括 Stability 音乐生成器在内的音乐生成器越来越受欢迎，版权以及一些生成器创建者可能滥用版权的方式正成为人们关注的焦点。5 月，代表比利-乔尔（Billy Joel）、Doja Cat 和 Lil Nas X 等艺术家的索尼音乐公司致函700 家人工智能公司，警告不要"未经授权使用"其内容来训练音频生成器。今年 3 月，美国田纳西州签署了第一部旨在遏制人工智能在音乐领域滥用的法律。 ... PC版：手机版：

Stable Audio 2.0 发布：生成最长 3 分钟音频，能帮音乐家补全创意作品

Stable Audio 2.0 发布：生成最长 3 分钟音频，能帮音乐家补全创意作品 Stability AI 宣布推出 Stability Audio 2.0，进一步为音频生成扩展了前奏、副歌、收尾和立体声效果等内容，最长可以生成 3 分钟的音频内容。 Stable Audio 2.0 扩充了生成功能之外，还提供了音频生成音频功能，基于用户上传的一小段音频内容，扩展生成、补充相关的音频内容。例如音乐家如果在创作某段音乐的时候“卡壳”了，可以上传某段 DEMO，要求 Stable Audio 2.0 补充完整歌曲，让你的各种小创意都能转换为完整的音频内容。 Stable Audio 2.0 还支持定制、微调生成后的音频内容，换句话说，如果你不喜欢音频中的某些内容，你可以根据自己的具体需求改变风格。Stability Audio 2.0 不仅能生成完整的音轨，还能帮助您制作各种声音和音频效果，从打字时发出的声音到人群背景声等等。来源，频道：@kejiqu 群组：@kejiquchat

Stability AI发布最新图像生成模型Stable Diffusion XL 1.0

Stability AI发布最新图像生成模型Stable Diffusion XL 1.0 今天，Stability AI 宣布推出 Stable Diffusion XL 1.0，这是该公司迄今为止描述为“最先进”的文本到图像模型。Stable Diffusion XL 1.0 可在上以开源形式使用，并提供给 Stability 的和消费者应用程序和。Stability 声称，与其前代产品相比，Stable Diffusion XL 1.0 提供了“更生动”和“更准确”的颜色，更好的对比度、阴影和照明效果。在接受采访时，Stability AI 的应用机器学习负责人Joe Penna 指出，Stable Diffusion XL 1.0 包含 35亿个参数，可以“在几秒钟内”生成多种长宽比的 100万像素分辨率的完整图像。“参数”是模型从训练数据中学习到的部分，基本上定义了模型在解决问题上的技能水平。上一代稳定扩散模型稳定扩散 XL 0.9 也可以生成更高分辨率的图像，但需要更多的计算能力。、

Stability AI发布免费音频生成工具可创作AI歌曲

Stability AI发布免费音频生成工具可创作AI歌曲而Stable Audio 2.0提供了完整的三分钟音频片段，这个长度的歌曲大多数适合电台播放，而所有上传的音频必须是无版权的。据了解，与OpenAI的音频生成模型Voice Engine只向一小部分用户开放不同，Stability AI通过其网站免费向公众提供Stable Audio，未来将很快提供API接口。Stability AI表示，Stable Audio 2.0与其早期版本的一个主要区别在于，它能够创建与真实歌曲相似的歌曲结构，包括有序幕、进展和尾声。不过，已经试玩Stable Audio 2.0的媒体表示，这个水平的AI歌曲距离帮助用户用音乐表达想法，差距依然比较大。例如，有用户用“带有美国风格的民谣流行歌曲”（美国乡村音乐）作为提示，Stable Audio生成的歌曲在某些部分听起来有山谷清晨的氛围，并且疑似加入了人声。理论上，Stable Audio 2.0的新功能允许用户调整生成的AI音频作品，使作品更符合用户的听歌风格。例如可以调整遵循提示程度，或设置转换所上传音频的哪一部分，用户还可以添加像人群的吼声或键盘敲击等音效。然而，这种AI歌曲最大的问题在于，让人感觉毫无灵魂。但这并不令人感到惊讶，因为这和其他大厂的AI音频问题一样。例如，如Meta和Google也一直在尝试AI音频生成，但两家公司都没有公开发布他们的模型，因为他们仍在收集开发者的反馈，来解决AI歌曲无灵魂的问题。Stability AI在一份新闻稿中说，Stable Audio是在AudioSparx的数据上训练的，后者拥有超过800，000个音频文件的库。不过，这些音频可能出现版权纠纷。Stability AI表示，作品被纳入AudioSparx的艺术家可以选择退出，以避免他们的作品用于训练模型。其实，使用版权音频训练模型是Stability AI的前音频副总裁Ed Newton-Rex在Stable Audio发布后不久就离开公司的原因之一。对于2.0版本，Stability AI说它与Audible Magic合作，使用其内容识别技术来追踪和阻止版权音频进入平台。总之，Stable Audio 2.0的确让AI歌曲比之前更像真正的歌曲，但还是没有完全达到这个目标。媒体表示，如果Stable Audio 2.0模型坚持添加某种人声，也许下一个版本的AI音频作品会出现更能令人分辨的语言。 ... PC版：手机版：

Stable Diffusion 的母公司 Stability AI 宣布开源一款全新的大语言模型 StableLM

Stable Diffusion 的母公司 Stability AI 宣布开源一款全新的大语言模型 StableLM 模型的 Alpha 版本有 30 亿和 70 亿参数，并将于后续开放 150 亿和 650 亿的参数模型。 Stability AI 的创始人 Emad Mostaque 自 2020 年从 OpenAI 团队离开后，一直秉承着开源开放的理念，持续推出了多款 AI 开源模型。其中影响力最广的，便有大家所熟知的文本生成图像模型 Stable Diffusion。本次开源的 StableLM，基础功能跟 GPT 一样，支持生成文本和代码，在未来可以给不少应用提供基础技术支持。在项目中，StableLM 提供了几个基础演示，包括聊天、撰写书信、小说创作、代码编写等功能。来源 (，) 来自：雷锋频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人