RT 宝玉SoundStorm:高效并行音频生成

RT 宝玉 SoundStorm:高效并行音频生成 SoundStorm是Google发布的一个用于高效、非自回归音频生成的模型。 看了下项目首页上的演示,我觉得生成速度还罢了,它的演示音频让我觉得厉害的地方是只要3秒的样本,就能按照原本说话的音色生成后续的音频,而且很自然。… AK: SoundStorm: Efficient Parallel Audio Generation SoundStorm generates 30 seconds of audio in 0.5 seconds on a TPU-v4. Demonstrate the ability of model to scale audio generation to longer sequences by synthesizing high-quality, natural dialogue segments, given a transcript…

相关推荐

封面图片

Stability AI发布免费音频生成工具 可创作AI歌曲

Stability AI发布免费音频生成工具 可创作AI歌曲 而Stable Audio 2.0提供了完整的三分钟音频片段,这个长度的歌曲大多数适合电台播放,而所有上传的音频必须是无版权的。据了解,与OpenAI的音频生成模型Voice Engine只向一小部分用户开放不同,Stability AI通过其网站免费向公众提供Stable Audio,未来将很快提供API接口。Stability AI表示,Stable Audio 2.0与其早期版本的一个主要区别在于,它能够创建与真实歌曲相似的歌曲结构,包括有序幕、进展和尾声。不过,已经试玩Stable Audio 2.0的媒体表示,这个水平的AI歌曲距离帮助用户用音乐表达想法,差距依然比较大。例如,有用户用“带有美国风格的民谣流行歌曲”(美国乡村音乐)作为提示,Stable Audio生成的歌曲在某些部分听起来有山谷清晨的氛围,并且疑似加入了人声。理论上,Stable Audio 2.0的新功能允许用户调整生成的AI音频作品,使作品更符合用户的听歌风格。例如可以调整遵循提示程度,或设置转换所上传音频的哪一部分,用户还可以添加像人群的吼声或键盘敲击等音效。然而,这种AI歌曲最大的问题在于,让人感觉毫无灵魂。但这并不令人感到惊讶,因为这和其他大厂的AI音频问题一样。例如,如Meta和Google也一直在尝试AI音频生成,但两家公司都没有公开发布他们的模型,因为他们仍在收集开发者的反馈,来解决AI歌曲无灵魂的问题。Stability AI在一份新闻稿中说,Stable Audio是在AudioSparx的数据上训练的,后者拥有超过800,000个音频文件的库。不过,这些音频可能出现版权纠纷。Stability AI表示,作品被纳入AudioSparx的艺术家可以选择退出,以避免他们的作品用于训练模型。其实,使用版权音频训练模型是Stability AI的前音频副总裁Ed Newton-Rex在Stable Audio发布后不久就离开公司的原因之一。对于2.0版本,Stability AI说它与Audible Magic合作,使用其内容识别技术来追踪和阻止版权音频进入平台。总之,Stable Audio 2.0的确让AI歌曲比之前更像真正的歌曲,但还是没有完全达到这个目标。媒体表示,如果Stable Audio 2.0模型坚持添加某种人声,也许下一个版本的AI音频作品会出现更能令人分辨的语言。 ... PC版: 手机版:

封面图片

Meta开源了AI 音频生成工具 AudioCraft,包含 3 个模型:

Meta开源了AI 音频生成工具 AudioCraft,包含 3 个模型: - MusicGen 文本生成音乐 - AudioGen 文本生成音频 - EnCodec 损失更少的音频压缩 || MusicGen在HuggingFace 上的

封面图片

Stable Audio 2.0 发布:生成最长 3 分钟音频,能帮音乐家补全创意作品

Stable Audio 2.0 发布:生成最长 3 分钟音频,能帮音乐家补全创意作品 Stability AI 宣布推出 Stability Audio 2.0,进一步为音频生成扩展了前奏、副歌、收尾和立体声效果等内容,最长可以生成 3 分钟的音频内容。 Stable Audio 2.0 扩充了生成功能之外,还提供了音频生成音频功能,基于用户上传的一小段音频内容,扩展生成、补充相关的音频内容。例如音乐家如果在创作某段音乐的时候“卡壳”了,可以上传某段 DEMO,要求 Stable Audio 2.0 补充完整歌曲,让你的各种小创意都能转换为完整的音频内容。 Stable Audio 2.0 还支持定制、微调生成后的音频内容,换句话说,如果你不喜欢音频中的某些内容,你可以根据自己的具体需求改变风格。Stability Audio 2.0 不仅能生成完整的音轨,还能帮助您制作各种声音和音频效果,从打字时发出的声音到人群背景声等等。来源 , 频道:@kejiqu 群组:@kejiquchat

封面图片

:Audiocraft是一个用于音频生成深度学习研究的 PyTorch 库,包含了最先进的EnCodec音频压缩器,以及Musi

:Audiocraft是一个用于音频生成深度学习研究的 PyTorch 库,包含了最先进的EnCodec音频压缩器,以及MusicGen,一个简单且可控的音频生成模型。 AudioCraft Plus 是原版 AudioCraft 的一体化 WebUI,在其基础上添加了许多优质功能。 AudioGen 模型 多波段扩散 定制模型支持 生成元数据和音频信息选项卡 单声道转立体声 多重提示/带结构提示的提示分段 视频输出定制 音乐延续

封面图片

MAGIC-ME 字节发布了一个针对视频生成中人物身份保持的项目。

MAGIC-ME 字节发布了一个针对视频生成中人物身份保持的项目。 可以在视频生成中保持对应输入图像人物的身份特征,看起来还行,但是用名人演示不太好看出效果。 项目简介: 提出了一种简单却高效的主题身份可控视频生成框架,称之为视频定制扩散(Video Custom Diffusion,VCD)。通过定义一 ...

封面图片

:DeepMind视频音频生成技术,为无声创造同步音轨的创新工具,结合像素和自然语言提示生成丰富的音景

:DeepMind视频音频生成技术,为无声视频创造同步音轨的创新工具,结合视频像素和自然语言提示生成丰富的音景 - DeepMind研发了视频到音频(V2A)技术,可以利用视频像素和文本提示生成与视频同步的丰富音轨。 - V2A可与像Veo这样的视频生成模型配合使用,为视频添加戏剧性配乐、逼真音效或与视频角色和语气匹配的对话。 - V2A也可以为各类传统镜头生成音轨,如档案素材、无声电影等,拓宽创作空间。 - V2A支持无限生成音轨,允许定义正向和负向提示来指导生成所需的音频。 - V2A使用基于扩散的方法,先编码视觉输入,然后模型逐步从随机噪声中提炼音频。这个过程同时利用视觉输入和文本提示进行指导。 - 为提高音频质量,训练中加入了AI生成的含音频详细描述和语音转录的注释信息。 - V2A可理解原始像素,添加文本提示是可选的。它也无需人工调整生成音频与视频的对齐。 - 当前局限包括视频失真可影响音频质量,语音同步存在待改进之处。 - DeepMind将采取负责任的方式开发和部署V2A,正在与顶级创作者合作改进技术,并加入合成识别工具SynthID以防范技术误用。 - V2A正在进行安全评估,初始结果显示它是使生成视频栩栩如生的有前景技术。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人