:DeepMind视频音频生成技术,为无声创造同步音轨的创新工具,结合像素和自然语言提示生成丰富的音景
:DeepMind视频音频生成技术,为无声视频创造同步音轨的创新工具,结合视频像素和自然语言提示生成丰富的音景 - DeepMind研发了视频到音频(V2A)技术,可以利用视频像素和文本提示生成与视频同步的丰富音轨。 - V2A可与像Veo这样的视频生成模型配合使用,为视频添加戏剧性配乐、逼真音效或与视频角色和语气匹配的对话。 - V2A也可以为各类传统镜头生成音轨,如档案素材、无声电影等,拓宽创作空间。 - V2A支持无限生成音轨,允许定义正向和负向提示来指导生成所需的音频。 - V2A使用基于扩散的方法,先编码视觉输入,然后模型逐步从随机噪声中提炼音频。这个过程同时利用视觉输入和文本提示进行指导。 - 为提高音频质量,训练中加入了AI生成的含音频详细描述和语音转录的注释信息。 - V2A可理解原始像素,添加文本提示是可选的。它也无需人工调整生成音频与视频的对齐。 - 当前局限包括视频失真可影响音频质量,语音同步存在待改进之处。 - DeepMind将采取负责任的方式开发和部署V2A,正在与顶级创作者合作改进技术,并加入合成识别工具SynthID以防范技术误用。 - V2A正在进行安全评估,初始结果显示它是使生成视频栩栩如生的有前景技术。
在Telegram中查看相关推荐

🔍 发送关键词来寻找群组、频道或视频。
启动SOSO机器人