RT 宝玉SoundStorm：高效并行音频生成

RT 宝玉 SoundStorm：高效并行音频生成 SoundStorm是Google发布的一个用于高效、非自回归音频生成的模型。看了下项目首页上的演示，我觉得生成速度还罢了，它的演示音频让我觉得厉害的地方是只要3秒的样本，就能按照原本说话的音色生成后续的音频，而且很自然。… AK: SoundStorm: Efficient Parallel Audio Generation SoundStorm generates 30 seconds of audio in 0.5 seconds on a TPU-v4. Demonstrate the ability of model to scale audio generation to longer sequences by synthesizing high-quality, natural dialogue segments, given a transcript…

在Telegram中查看

相关推荐

Stability AI发布免费音频生成工具可创作AI歌曲

Stability AI发布免费音频生成工具可创作AI歌曲而Stable Audio 2.0提供了完整的三分钟音频片段，这个长度的歌曲大多数适合电台播放，而所有上传的音频必须是无版权的。据了解，与OpenAI的音频生成模型Voice Engine只向一小部分用户开放不同，Stability AI通过其网站免费向公众提供Stable Audio，未来将很快提供API接口。Stability AI表示，Stable Audio 2.0与其早期版本的一个主要区别在于，它能够创建与真实歌曲相似的歌曲结构，包括有序幕、进展和尾声。不过，已经试玩Stable Audio 2.0的媒体表示，这个水平的AI歌曲距离帮助用户用音乐表达想法，差距依然比较大。例如，有用户用“带有美国风格的民谣流行歌曲”（美国乡村音乐）作为提示，Stable Audio生成的歌曲在某些部分听起来有山谷清晨的氛围，并且疑似加入了人声。理论上，Stable Audio 2.0的新功能允许用户调整生成的AI音频作品，使作品更符合用户的听歌风格。例如可以调整遵循提示程度，或设置转换所上传音频的哪一部分，用户还可以添加像人群的吼声或键盘敲击等音效。然而，这种AI歌曲最大的问题在于，让人感觉毫无灵魂。但这并不令人感到惊讶，因为这和其他大厂的AI音频问题一样。例如，如Meta和Google也一直在尝试AI音频生成，但两家公司都没有公开发布他们的模型，因为他们仍在收集开发者的反馈，来解决AI歌曲无灵魂的问题。Stability AI在一份新闻稿中说，Stable Audio是在AudioSparx的数据上训练的，后者拥有超过800，000个音频文件的库。不过，这些音频可能出现版权纠纷。Stability AI表示，作品被纳入AudioSparx的艺术家可以选择退出，以避免他们的作品用于训练模型。其实，使用版权音频训练模型是Stability AI的前音频副总裁Ed Newton-Rex在Stable Audio发布后不久就离开公司的原因之一。对于2.0版本，Stability AI说它与Audible Magic合作，使用其内容识别技术来追踪和阻止版权音频进入平台。总之，Stable Audio 2.0的确让AI歌曲比之前更像真正的歌曲，但还是没有完全达到这个目标。媒体表示，如果Stable Audio 2.0模型坚持添加某种人声，也许下一个版本的AI音频作品会出现更能令人分辨的语言。 ... PC版：手机版：

Meta开源了AI 音频生成工具 AudioCraft，包含 3 个模型：

Meta开源了AI 音频生成工具 AudioCraft，包含 3 个模型： - MusicGen 文本生成音乐 - AudioGen 文本生成音频 - EnCodec 损失更少的音频压缩 || MusicGen在HuggingFace 上的

Stable Audio 2.0 发布：生成最长 3 分钟音频，能帮音乐家补全创意作品

Stable Audio 2.0 发布：生成最长 3 分钟音频，能帮音乐家补全创意作品 Stability AI 宣布推出 Stability Audio 2.0，进一步为音频生成扩展了前奏、副歌、收尾和立体声效果等内容，最长可以生成 3 分钟的音频内容。 Stable Audio 2.0 扩充了生成功能之外，还提供了音频生成音频功能，基于用户上传的一小段音频内容，扩展生成、补充相关的音频内容。例如音乐家如果在创作某段音乐的时候“卡壳”了，可以上传某段 DEMO，要求 Stable Audio 2.0 补充完整歌曲，让你的各种小创意都能转换为完整的音频内容。 Stable Audio 2.0 还支持定制、微调生成后的音频内容，换句话说，如果你不喜欢音频中的某些内容，你可以根据自己的具体需求改变风格。Stability Audio 2.0 不仅能生成完整的音轨，还能帮助您制作各种声音和音频效果，从打字时发出的声音到人群背景声等等。来源，频道：@kejiqu 群组：@kejiquchat

：Audiocraft是一个用于音频生成深度学习研究的 PyTorch 库，包含了最先进的EnCodec音频压缩器，以及Musi

：Audiocraft是一个用于音频生成深度学习研究的 PyTorch 库，包含了最先进的EnCodec音频压缩器，以及MusicGen，一个简单且可控的音频生成模型。 AudioCraft Plus 是原版 AudioCraft 的一体化 WebUI，在其基础上添加了许多优质功能。 AudioGen 模型多波段扩散定制模型支持生成元数据和音频信息选项卡单声道转立体声多重提示/带结构提示的提示分段视频输出定制音乐延续

MAGIC-ME 字节发布了一个针对视频生成中人物身份保持的项目。

MAGIC-ME 字节发布了一个针对视频生成中人物身份保持的项目。可以在视频生成中保持对应输入图像人物的身份特征，看起来还行，但是用名人演示不太好看出效果。项目简介：提出了一种简单却高效的主题身份可控视频生成框架，称之为视频定制扩散（Video Custom Diffusion，VCD）。通过定义一 ...

《揭秘AI视频生成最强工作流！》

《揭秘AI视频生成最强工作流！》亮点：探索AI视频生成的最强工作流，揭秘高效创作技巧与工具，助你轻松打造专业级视频内容。标签：#AI视频生成 #揭秘AI视频生成最强工作流 #内容创作 #科技前沿更新日期：2025-06-21 02:34:05 链接：https://pan.quark.cn/s/b9d588d577c8

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人