Google DeepMind的新AI可以为视频生成配乐和对白

Google DeepMind的新AI可以为视频生成配乐和对白 DeepMind 写道："视频生成模型正以惊人的速度发展，但目前的许多系统只能生成无声输出。V2A技术[可能]成为让生成的电影栩栩如生的一种有前途的方法"。DeepMind的V2A技术可以将配乐描述（例如"水母在水下跳动、海洋生物、海洋"）与视频配对，创造出与视频中的人物和语气相匹配的音乐、音效甚至对话，并通过DeepMind的SynthID深度防伪技术打上水印。DeepMind 表示，为 V2A 提供动力的人工智能模型（一种扩散模型）是在声音和对话文本以及视频剪辑的组合上训练出来的。DeepMind 写道："通过对视频、音频和附加注释进行训练，我们的技术学会了将特定音频事件与各种视觉场景联系起来，同时对注释或文本中提供的信息做出响应。"关于训练数据是否受版权保护，以及数据创建者是否被告知 DeepMind 的工作，目前还不得而知。人工智能驱动的声音生成工具并不新鲜。创业公司 Stability AI 上周刚刚发布了一款，ElevenLabs 在 5 月份也推出了一款。创建视频音效的模型也不新鲜。微软的一个项目可以从静止图像中生成说话和唱歌视频，Pika和GenreX等平台已经训练出模型，可以获取视频并猜测特定场景中适合的音乐或效果。但 DeepMind 声称，其 V2A 技术的独特之处在于，它可以理解视频中的原始像素，并自动将生成的声音与视频同步，还可以选择不加说明。V2A 并不完美，DeepMind 也承认这一点。由于底层模型并没有在大量存在伪像或扭曲的视频上进行过训练，因此它并不能为这些视频生成特别高质量的音频。出于这些原因，同时也为了防止滥用，DeepMind 表示不会在短期内（如果有的话）向公众发布这项技术。DeepMind 写道："为了确保我们的 V2A 技术能够对创意社区产生积极影响，我们正在收集来自顶尖创作者和电影制作人的各种观点和见解，并利用这些宝贵的反馈意见来指导我们正在进行的研究和开发工作。在考虑向更广泛的公众开放之前，我们的 V2A 技术将接受严格的安全评估和测试。"DeepMind 的 V2A 技术对于档案管理员和处理历史片段的人来说是一种特别有用的工具。但是，按照这种思路进行的生成式人工智能也有可能颠覆电影和电视行业。要想确保生成式媒体工具不会消除工作岗位，或者说，消除整个职业，就需要一些强有力的劳动保护措施。 ... PC版：手机版：

在Telegram中查看

相关推荐

：DeepMind视频音频生成技术，为无声创造同步音轨的创新工具，结合像素和自然语言提示生成丰富的音景

：DeepMind视频音频生成技术，为无声视频创造同步音轨的创新工具，结合视频像素和自然语言提示生成丰富的音景 - DeepMind研发了视频到音频(V2A)技术，可以利用视频像素和文本提示生成与视频同步的丰富音轨。 - V2A可与像Veo这样的视频生成模型配合使用，为视频添加戏剧性配乐、逼真音效或与视频角色和语气匹配的对话。 - V2A也可以为各类传统镜头生成音轨，如档案素材、无声电影等，拓宽创作空间。 - V2A支持无限生成音轨，允许定义正向和负向提示来指导生成所需的音频。 - V2A使用基于扩散的方法，先编码视觉输入，然后模型逐步从随机噪声中提炼音频。这个过程同时利用视觉输入和文本提示进行指导。 - 为提高音频质量，训练中加入了AI生成的含音频详细描述和语音转录的注释信息。 - V2A可理解原始像素，添加文本提示是可选的。它也无需人工调整生成音频与视频的对齐。 - 当前局限包括视频失真可影响音频质量，语音同步存在待改进之处。 - DeepMind将采取负责任的方式开发和部署V2A，正在与顶级创作者合作改进技术，并加入合成识别工具SynthID以防范技术误用。 - V2A正在进行安全评估，初始结果显示它是使生成视频栩栩如生的有前景技术。

Google DeepMind 公布 Genie 模型，可生成可交互的虚拟环境

Google DeepMind 公布 Genie 模型，可生成可交互的虚拟环境 Google DeepMind 今天介绍了 Genie ，一种根据互联网视频训练的基础世界模型，可以从合成图像、照片甚至草图生成无数种可玩（动作可控）的世界。 Genie 可以用它以前从未见过的图像来作为输入，使人们能够与生成的虚拟世界进行交互。它由一个时空视频标记器、一个自回归动力学模型和一个简单且可扩展的潜在行动模型组成。该模型可根据没有任何标注数据的公开互联网视频的大型数据集进行训练。该模型当前专注于 2D 平台游戏和机器人的视频，但其方法是通用的，并且可以扩展到任何类型的领域和更大的数据集。团队还通过使用 Google 的 RT-1 机器人的摄像头视频数据训练模型，表明 Genie 能够学习与现实世界一致的动作空间。这可能产生一个现实世界模拟器，以便训练未来的通用智能体。 ,

：视频生成技术的新前沿，实现高保真度、可控性生成

：视频生成技术的新前沿，实现高保真度、可控性视频生成 - 与视频和图像联合训练，支持从文字到视频、从图像到视频以及从文字到图像等工具，同时保留运动笔刷、高级相机控制、导演模式等控制模式。 - 引入了一系列安全保障措施，包括内部视觉审查系统和C2PA来源标准。 - 训练数据包含描述性细致和时间密集的描述，支持场景元素的富有想象力的过渡和精确的关键帧设置。 - 表现出色的生成式真人角色，可以展示广泛的动作、手势和情绪，解锁新的叙事方式。 - 由跨学科团队的科研人员、工程师和艺术家合作训练，旨在解释各种风格和电影术语。 - 与主要娱乐和媒体组织合作，为Gen-3创建定制版本，允许更具风格的控制和一致的字符，达到特定的艺术和叙事要求。 - 所有示例视频均完全由Gen-3 Alpha生成，无任何修改。 - Gen-3 Alpha代表了高保真、可控视频生成的新前沿。它为艺术家提供了强大的新工具，为多种行业带来自定义解决方案的可能性。

终于有普通人可以立刻使用的类 Sora 视频生成工具了！#ai# #sora#

终于有普通人可以立刻使用的类 Sora 视频生成工具了！#ai视频# #sora# 海外产品 viva 发布了首个开放给全部用户使用的 Sora 同架构视频生成模型，而且现阶段免费。支持文本生成视频、图片生成视频以及 4K 分辨率放大功能，另外也支持提示词的自动优化。文生视频单次可以生成一条 5 秒的视频，图生视频是 4 秒视频我测试了一下应该是目前运动幅度最大的视频生成模型，同时图像分辨率也是现在可以用的视频生成产品中最大的。文生视频的效果比图生视频要更好，同时如果要是用的话建议把运动幅度调到 20 左右比较合适。 viva 优势领域就是可以生成比较好的竖屏视频，目前很多视频模型的演示都是横屏视频，竖屏的表现并不好，但是短视频又是视频内容的大头，所以竖屏视频的生成质量是个很重要的指标。但是一致性有一部分测试中保持的不是很好，同时没有表现出 Sora 那样强大的物理特性模拟以及 3D 一致性。跟谷歌刚发布的 Veo 模型对比来看在写实内容上其实以及差不多了。下面是 viva 的视频演示，15 秒开始有相同的提示词跟谷歌刚发布的 Veo 模型的对比。这里体验 viva：

Google发布视频生成模型Veo 支持生成1080P

Google发布视频生成模型Veo 支持生成1080P视频据了解，Veo能够根据文本、图像创建超过60秒的高质量1080P视频，用户可对光照、镜头语言、视频颜色风格等进行设定。用户仅需写出文本提示即可生成视频，比如文本提示：“在宁静的山地平移镜头，相机慢慢露出白雪皑皑的山峰、花岗岩岩石和倒映天空的清澈湖泊。”“一艘宇宙飞船在浩瀚的太空中穿梭，星星划过，高速，科幻”。 ... PC版：手机版：

AI图片生成 AI视频生成工具限免快手大模型团队自研打造-可灵 AI

AI图片生成 AI视频生成工具限免快手大模型团队自研打造-可灵 AI #AI工具 #趣站 #AI #AI图片生成 #AI视频生成 https://www.ahhhhfs.com/60059/

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人