Stable Audio Open 开源 AI 模型发布

StableAudioOpen开源AI模型发布StabilityAI立足StableDiffusion文生图模型，进一步向音频领域拓展，推出了，可以基于用户输入的提示词，生成高质量音频样本。StableAudioOpen最长可以创建47秒的音乐，非常适合鼓点、乐器旋律、环境音和拟声音效，该开源模型基于transforms扩散模型（DiT），在自动编码器的潜在空间中操作，提高生成音频的质量和多样性。StableAudioOpen目前已经开源，感兴趣的用户可以在上试用。据说它使用了来自FreeSound和FreeMusicArchive等音乐库的486000多种采样进行训练。StabilityAI公司表示：“虽然它可以生成简短的音乐片段，但并不适合完整的歌曲、旋律或人声”。StableAudioOpen和StableAudio2.0不同是，前者为开源模型，专注于短音频片段和音效，而后者能够生成最长3分钟的完整音频。来源，频道：@kejiqu群组：@kejiquchat

在Telegram中查看

相关推荐

Stability AI 推出音乐/声音生成人工智能 Stable Audio

StabilityAI推出音乐/声音生成人工智能StableAudioStableAudio是一个扩散模型，用户只需描述关键词即可创建自己想要的音乐，每个账户每个月可以免费生成20首音频。StableAudio由音乐商AudioSparx提供的超80万音频文件训练而来(包含音乐、音效、单乐器主干和对应文本)。该模型在英伟达A100显卡上可以以44.1kHz采样率在不到一秒的时间内渲染95秒的音频。stableaudio.com投稿：@ZaiHuaBot频道：@TestFlightCN

Stability AI 推出 Stable Audio，基于文本生成最长 90 秒音频

StabilityAI推出StableAudio，基于文本生成最长90秒音频StabilityAI公司近日推出StableAudio，可以基于用户输入的文本内容，自动生成音乐或者音频。免费版StableAudio可以生成最长20秒的音乐片段，而用户在购买Pro订阅之后，可以生成最长90秒的音频内容。StabilityAI公司首席执行官表示：“我们希望音乐爱好者和创意专业人士使用StableAudio工具，帮助生成新的内容，并期待能够激发无限的创造力”。https://stability.ai/blog/stable-audio-using-ai-to-generate-music——

图像生成模型 Stable Diffusion XL 1.0 开源发布

图像生成模型StableDiffusionXL1.0开源发布SDXL1.0的性能5倍优于SD1.5(开源社区主流)，是开源世界最大参数的图像模型，也是StabilityAI最新&最先进的模型。现可通过Github、HuggingFace、API、AWS、Clipdrop、DreamStudio直接访问。SDXL1.0拥有3.5B参数的基础模型(可单独使用)和6.6B参数的专家混合管道(多了一个单独执行最终去噪的精炼模型)，精炼模型可以为基础模型的输出添加更准确的颜色、更高的对比度和更精细的细节。微调SDXL1.0的图像需求量也急剧下降，现在只需5到10张图像就可以快速微调出一个专门生成特定人物、事物的模型。投稿：@ZaiHuaBot频道：@TestFlightCN

Stability AI 发布用于生成声音和歌曲的开放式AI模型

StabilityAI发布用于生成声音和歌曲的开放式AI模型该模型使用来自免费音乐库FreeSound和免费音乐档案馆的约486,000个样本进行训练。StabilityAI公司称，该模型可用于为视频、电影和电视节目创建鼓点、乐器旋律、环境噪音和"制作元素"，也可用于"编辑"现有歌曲或将一首歌的风格（如流畅爵士乐）应用到另一首歌中。StabilityAI公司在其公司博客上发表的一篇文章中写道："此次开源发布的一个主要好处是，用户可以根据自己的自定义音频数据对模型进行微调。例如，鼓手可以在自己的鼓声录音样本上进行微调，生成新的节拍。"不过，StableAudioOpen也有其局限性。它不能生成完整的歌曲、旋律或人声，至少不能生成好的歌曲、旋律或人声。StabilityAI表示，它并没有为此进行优化，并建议希望获得这些功能的用户选择该公司的高级StableAudio服务。StableAudioOpen也不能用于商业用途，其服务条款禁止这样做。此外，它在不同音乐风格和文化或英语以外的语言描述中的表现也不尽相同，StabilityAI将这些偏差归咎于训练数据。"数据源可能缺乏多样性，所有文化在数据集中都不具有同等代表性，"StabilityAI公司在对模型的描述中写道。"模型生成的样本将反映训练数据的偏差"。稳定人工智能公司（StabilityAI）长期以来一直在努力扭转业务颓势，最近，该公司负责生成音频的副总裁埃德-牛顿-雷克斯（EdNewton-Rex）因不同意该公司关于在受版权保护的作品上训练生成人工智能模型构成"合理使用"的立场而辞职，从而引发争议。StableAudioOpen似乎试图扭转这种说法，同时不着痕迹地宣传StabilityAI的付费产品。随着包括Stability音乐生成器在内的音乐生成器越来越受欢迎，版权--以及一些生成器创建者可能滥用版权的方式--正成为人们关注的焦点。5月，代表比利-乔尔（BillyJoel）、DojaCat和LilNasX等艺术家的索尼音乐公司致函700家人工智能公司，警告不要"未经授权使用"其内容来训练音频生成器。今年3月，美国田纳西州签署了第一部旨在遏制人工智能在音乐领域滥用的法律。...PC版：https://www.cnbeta.com.tw/articles/soft/1433768.htm手机版：https://m.cnbeta.com.tw/view/1433768.htm

Stable Audio 2.0 发布：生成最长 3 分钟音频，能帮音乐家补全创意作品

StableAudio2.0发布：生成最长3分钟音频，能帮音乐家补全创意作品StabilityAI宣布推出StabilityAudio2.0，进一步为音频生成扩展了前奏、副歌、收尾和立体声效果等内容，最长可以生成3分钟的音频内容。StableAudio2.0扩充了生成功能之外，还提供了音频生成音频功能，基于用户上传的一小段音频内容，扩展生成、补充相关的音频内容。例如音乐家如果在创作某段音乐的时候“卡壳”了，可以上传某段DEMO，要求StableAudio2.0补充完整歌曲，让你的各种小创意都能转换为完整的音频内容。StableAudio2.0还支持定制、微调生成后的音频内容，换句话说，如果你不喜欢音频中的某些内容，你可以根据自己的具体需求改变风格。StabilityAudio2.0不仅能生成完整的音轨，还能帮助您制作各种声音和音频效果，从打字时发出的声音到人群背景声等等。来源，频道：@kejiqu群组：@kejiquchat

Meta 发布开源 AI 工具 AudioCraft，用户可通过文本提示创作音乐、音频

Meta发布开源AI工具AudioCraft，用户可通过文本提示创作音乐、音频Meta开源了一款生成式AI工具AudioCraft，可帮助用户通过文本提示创作音乐和音频。根据Meta官方介绍，AudioCraft包含了三个核心组件：1、MusicGen：使用Meta拥有/特别授权的音乐进行训练，根据文本提示生成音乐。2、AudioGen：使用公共音效进行训练生成音频或扩展现有音频，后续还可生成环境音效（如狗叫、汽车鸣笛、木地板上的脚步声）。3、EnCodec（改进版）：基于神经网络的音频压缩解码器，可生成更高质量的音乐并减少人工痕迹，或对音频文件进行无损压缩。该工具经过开源之后，相关研究人员和从业人员可以使用自己的数据集训练模型。官方宣称AudioCraft系列模型能够长期稳定地生成高质量音频，而且易于使用，能够为音乐家和声音设计师“提供灵感”，帮助他们快速集思广益，并“以新的方式迭代他们的作品”。AudioCraft项目地址：——、

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人