RT 宝玉SoundStorm:高效并行音频生成
RT 宝玉
SoundStorm:高效并行音频生成
SoundStorm是Google发布的一个用于高效、非自回归音频生成的模型。
看了下项目首页上的演示,我觉得生成速度还罢了,它的演示音频让我觉得厉害的地方是只要3秒的样本,就能按照原本说话的音色生成后续的音频,而且很自然。…
AK: SoundStorm: Efficient Parallel Audio Generation
SoundStorm generates 30 seconds of audio in 0.5 seconds on a TPU-v4. Demonstrate the ability of model to scale audio generation to longer sequences by synthesizing high-quality, natural dialogue segments, given a transcript…