:DeepMind视频音频生成技术,为无声创造同步音轨的创新工具,结合像素和自然语言提示生成丰富的音景

:DeepMind视频音频生成技术,为无声视频创造同步音轨的创新工具,结合视频像素和自然语言提示生成丰富的音景 - DeepMind研发了视频到音频(V2A)技术,可以利用视频像素和文本提示生成与视频同步的丰富音轨。 - V2A可与像Veo这样的视频生成模型配合使用,为视频添加戏剧性配乐、逼真音效或与视频角色和语气匹配的对话。 - V2A也可以为各类传统镜头生成音轨,如档案素材、无声电影等,拓宽创作空间。 - V2A支持无限生成音轨,允许定义正向和负向提示来指导生成所需的音频。 - V2A使用基于扩散的方法,先编码视觉输入,然后模型逐步从随机噪声中提炼音频。这个过程同时利用视觉输入和文本提示进行指导。 - 为提高音频质量,训练中加入了AI生成的含音频详细描述和语音转录的注释信息。 - V2A可理解原始像素,添加文本提示是可选的。它也无需人工调整生成音频与视频的对齐。 - 当前局限包括视频失真可影响音频质量,语音同步存在待改进之处。 - DeepMind将采取负责任的方式开发和部署V2A,正在与顶级创作者合作改进技术,并加入合成识别工具SynthID以防范技术误用。 - V2A正在进行安全评估,初始结果显示它是使生成视频栩栩如生的有前景技术。

相关推荐

封面图片

Google DeepMind的新AI可以为视频生成配乐和对白

Google DeepMind的新AI可以为视频生成配乐和对白 DeepMind 写道:"视频生成模型正以惊人的速度发展,但目前的许多系统只能生成无声输出。V2A技术[可能]成为让生成的电影栩栩如生的一种有前途的方法"。DeepMind的V2A技术可以将配乐描述(例如"水母在水下跳动、海洋生物、海洋")与视频配对,创造出与视频中的人物和语气相匹配的音乐、音效甚至对话,并通过DeepMind的SynthID深度防伪技术打上水印。DeepMind 表示,为 V2A 提供动力的人工智能模型(一种扩散模型)是在声音和对话文本以及视频剪辑的组合上训练出来的。DeepMind 写道:"通过对视频、音频和附加注释进行训练,我们的技术学会了将特定音频事件与各种视觉场景联系起来,同时对注释或文本中提供的信息做出响应。"关于训练数据是否受版权保护,以及数据创建者是否被告知 DeepMind 的工作,目前还不得而知。人工智能驱动的声音生成工具并不新鲜。创业公司 Stability AI 上周刚刚发布了一款,ElevenLabs 在 5 月份也推出了一款。创建视频音效的模型也不新鲜。微软的一个项目可以从静止图像中生成说话和唱歌视频,Pika和GenreX等平台已经训练出模型,可以获取视频并猜测特定场景中适合的音乐或效果。但 DeepMind 声称,其 V2A 技术的独特之处在于,它可以理解视频中的原始像素,并自动将生成的声音与视频同步,还可以选择不加说明。V2A 并不完美,DeepMind 也承认这一点。由于底层模型并没有在大量存在伪像或扭曲的视频上进行过训练,因此它并不能为这些视频生成特别高质量的音频。出于这些原因,同时也为了防止滥用,DeepMind 表示不会在短期内(如果有的话)向公众发布这项技术。DeepMind 写道:"为了确保我们的 V2A 技术能够对创意社区产生积极影响,我们正在收集来自顶尖创作者和电影制作人的各种观点和见解,并利用这些宝贵的反馈意见来指导我们正在进行的研究和开发工作。在考虑向更广泛的公众开放之前,我们的 V2A 技术将接受严格的安全评估和测试。"DeepMind 的 V2A 技术对于档案管理员和处理历史片段的人来说是一种特别有用的工具。但是,按照这种思路进行的生成式人工智能也有可能颠覆电影和电视行业。要想确保生成式媒体工具不会消除工作岗位,或者说,消除整个职业,就需要一些强有力的劳动保护措施。 ... PC版: 手机版:

封面图片

Udio V1:AI 通过文本提示生成各种风格的音乐模型

Udio V1:AI 通过文本提示生成各种风格的音乐模型 一款由前 Google DeepMind 团队成员开发的 AI 音乐生成工具,能够根据文本提示创作出不同风格的音乐。 每月可以免费生成 1200 首歌曲 标签:#AI #音乐 #生成音乐 #网站 链接:

封面图片

Google发布视频生成模型Veo 支持生成1080P

Google发布视频生成模型Veo 支持生成1080P视频 据了解,Veo能够根据文本、图像创建超过60秒的高质量1080P视频,用户可对光照、镜头语言、视频颜色风格等进行设定。用户仅需写出文本提示即可生成视频,比如文本提示:“在宁静的山地平移镜头,相机慢慢露出白雪皑皑的山峰、花岗岩岩石和倒映天空的清澈湖泊。”“一艘宇宙飞船在浩瀚的太空中穿梭,星星划过,高速,科幻”。 ... PC版: 手机版:

封面图片

谷歌 DeepMind 推出 SynthID 工具,能在 AI 生成的图像中嵌入隐形水印

谷歌 DeepMind 推出 SynthID 工具,能在 AI 生成的图像中嵌入隐形水印 谷歌 DeepMind 团队今日推出了一款名为 SynthID 的工具,可以在 AI 生成的图像中嵌入人眼不可见的水印,但可以用专门的人工智能检测工具检测出来,以便于区分真实和虚假的内容。 SynthID 的原理是在图像的像素中嵌入一个水印,但不会影响图像本身的质量和体验。该水印可以抵抗裁剪、缩放等常见的图片编辑操作,只有专门的 AI 检测工具才能识别出来。 谷歌 DeepMind 的 CEO Demis Hassabis 表示,SynthID 是为了解决深度伪造(deepfake)等潜在危险的问题而开发的。他认为,在 2024 年美国和英国即将举行大选的背景下,建立 AI 图像识别系统是非常重要的。他还表示,SynthID 的基本思想也可以应用于视频和文本等其他媒体。来源 , 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

谷歌 DeepMind 公布能生成可互动环境的世界模型 Genie 2

谷歌 DeepMind 公布能生成可互动环境的世界模型 Genie 2 谷歌 DeepMind 推出第二代 Genie 模型,其可以根据单个图像和文本描述生成交互式实时 3D 世界场景。以 Genie 世界模型作为基础模型,可以为自动驾驶或具身人工智能生成无限多的训练数据,进一步推动 AI 发展。 Genie 2 可以生成“丰富多样的 3D 世界”,其中包括用户可以使用鼠标或键盘进行跳跃和游泳等动作的世界。该模型经过视频训练,能够模拟物体交互、动画、灯光、物理、反射和“NPC”的行为,并拥有记忆能力。在谷歌公布大量示例中,许多看起来都像 3A 游戏,原因很可能是该模型的训练数据包含热门游戏的通关视频。 TechCrunch,Google 博客-电报频道- #娟姐新闻:@juanjienews

封面图片

ImageBind+Stable Diffusion相结合,能从任意内容生成图像的工具。

ImageBind+Stable Diffusion相结合,能从任意内容生成图像的工具。 利用统一潜空间和Stable Diffusion技术实现图像生成,无需进行训练。 可与Diffusers集成,并提供在线演示和Huggingface Gradio的演示。 支持的任务包括从音频、音频+文本、音频+图像、图像和文本生成图像 | #工具

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人