a16z的一篇文章,详细盘点了现在人工智能视频生成领域的现状,看完就可以对这个领域有个大概的了解,感兴趣可以看看。

a16z的一篇文章,详细盘点了现在人工智能视频生成领域的现状,看完就可以对这个领域有个大概的了解,感兴趣可以看看。 他们列出了 2023 视频生成产品的时间表以及对应产品的详细信息。同时对视频生成目前需要解决的问题以及视频生成领域的 ChatGPT 时刻到来需要具备的条件进行了探讨。 下面是主要内容,也可以去链接看全文翻译: AI 视频领域目前需要解决的核心问题? 控制:你能否控制场景中的事件以及“摄像机”的运动?对于后者,一些产品增加了可以让你进行缩放或平移摄像机,甚至添加特效的功能。至于前者 即动作是否如所描述的那样 这个问题更加棘手。这是一个关于基础模型质量的问题(模型是否能理解并执行你的提示)。 时间连贯性:如何确保在视频的不同帧之间,角色、物体和背景的一致性,防止它们在画面中突变或扭曲?这是目前所有公开的模型普遍面临的问题。 视频长度:如何制作时长超过几秒的视频片段?这个问题与时间连贯性密切相关。因为保持视频在几秒钟后仍具有一致性存在难度,许多公司限制了用户能生成的视频长度。 AI 视频领域的 ChatGPT 时刻何时到来,需要回答的几个问题? 当前的扩散架构是否适合视频制作? 目前的视频模型是基于扩散技术的:它们主要通过生成连续的帧并尝试创建时间上连贯的动画(采用多种策略实现)。这些模型没有对三维空间及物体间互动的内在理解,这就是扭曲或变形的原因。 高质量的训练数据将从何而来? 训练视频模型比训练其他内容模态更加困难,主要原因是缺乏足够的高质量、有标签的训练数据。 这些用例将如何在不同平台或模型间区分开来? 我们在几乎所有内容模态中观察到的现象是,没有一个模型能在所有用例中独占鳌头。 谁将主导视频制作的工作流程? 在目前的情况下,除了视频本身的生成,制作一段优质的视频或电影通常还需要进行编辑。我们预计视频生成平台将开始引入视频编辑需要的附加功能。 翻译及原文链接:

相关推荐

封面图片

华金证券:视频生成领域应用持续迭代

华金证券:视频生成领域应用持续迭代 华金证券研报指出,随着短视频进入 AI 原生时代,视频生成的产业链被压缩,新一代集视频制作、分发、变现为一体的新型平台将产生。视频产业链将简化为三大环节:创意生成、视频生成、宣发播放。随着制作环节难度下降,上游创意和下游宣发环节将在长视频产业链中更为重要。重塑后的视频产业将基于三大环节产生三大体系,并带来全新的生产方式。视频生成领域应用持续迭代,行业头部公司持续布局 AI 产业,有望提升 AI 应用渗透率。建议关注:恺英网络、昆仑万维、巨人网络等。

封面图片

StoryDiffusion 是一个开源的图像和视频生成模型,它通过一致自注意力机制和运动预测器,能够生成连贯的长序列图像和

StoryDiffusion 是一个开源的图像和视频生成模型,它通过一致自注意力机制和运动预测器,能够生成连贯的长序列图像和视频。 这个模型的主要优点在于它能够生成具有角色一致性的图像,并且可以扩展到视频生成,为用户提供了一个创造长视频的新方法。该模型对AI驱动的图像和视频生成领域有积极的影响,并且鼓励用户负责任地使用该工具。 使用场景示例: 使用StoryDiffusion生成一系列漫画风格的图像。 创建一个基于文本提示的长视频,展示一个连贯的故事。 利用StoryDiffusion进行角色设计和场景布局的预可视化。 产品特色: 一致自注意力机制:生成长序列中的角色一致图像。 运动预测器:在压缩的图像语义空间中预测运动,实现更大的运动预测。 漫画生成:利用一致自注意力机制生成的图像,无缝过渡创建视频。 图像到视频的生成:提供用户输入的条件图像序列来生成视频。 两阶段长视频生成:结合两个部分生成非常长且高质量的AIGC视频。 条件图像使用:图像到视频模型可以通过提供一系列用户输入的条件图像来生成视频。 短视频生成:提供快速的视频生成结果。 |

封面图片

Google DeepMind的新AI可以为视频生成配乐和对白

Google DeepMind的新AI可以为视频生成配乐和对白 DeepMind 写道:"视频生成模型正以惊人的速度发展,但目前的许多系统只能生成无声输出。V2A技术[可能]成为让生成的电影栩栩如生的一种有前途的方法"。DeepMind的V2A技术可以将配乐描述(例如"水母在水下跳动、海洋生物、海洋")与视频配对,创造出与视频中的人物和语气相匹配的音乐、音效甚至对话,并通过DeepMind的SynthID深度防伪技术打上水印。DeepMind 表示,为 V2A 提供动力的人工智能模型(一种扩散模型)是在声音和对话文本以及视频剪辑的组合上训练出来的。DeepMind 写道:"通过对视频、音频和附加注释进行训练,我们的技术学会了将特定音频事件与各种视觉场景联系起来,同时对注释或文本中提供的信息做出响应。"关于训练数据是否受版权保护,以及数据创建者是否被告知 DeepMind 的工作,目前还不得而知。人工智能驱动的声音生成工具并不新鲜。创业公司 Stability AI 上周刚刚发布了一款,ElevenLabs 在 5 月份也推出了一款。创建视频音效的模型也不新鲜。微软的一个项目可以从静止图像中生成说话和唱歌视频,Pika和GenreX等平台已经训练出模型,可以获取视频并猜测特定场景中适合的音乐或效果。但 DeepMind 声称,其 V2A 技术的独特之处在于,它可以理解视频中的原始像素,并自动将生成的声音与视频同步,还可以选择不加说明。V2A 并不完美,DeepMind 也承认这一点。由于底层模型并没有在大量存在伪像或扭曲的视频上进行过训练,因此它并不能为这些视频生成特别高质量的音频。出于这些原因,同时也为了防止滥用,DeepMind 表示不会在短期内(如果有的话)向公众发布这项技术。DeepMind 写道:"为了确保我们的 V2A 技术能够对创意社区产生积极影响,我们正在收集来自顶尖创作者和电影制作人的各种观点和见解,并利用这些宝贵的反馈意见来指导我们正在进行的研究和开发工作。在考虑向更广泛的公众开放之前,我们的 V2A 技术将接受严格的安全评估和测试。"DeepMind 的 V2A 技术对于档案管理员和处理历史片段的人来说是一种特别有用的工具。但是,按照这种思路进行的生成式人工智能也有可能颠覆电影和电视行业。要想确保生成式媒体工具不会消除工作岗位,或者说,消除整个职业,就需要一些强有力的劳动保护措施。 ... PC版: 手机版:

封面图片

终于有普通人可以立刻使用的类 Sora 视频生成工具了!#ai# #sora#

终于有普通人可以立刻使用的类 Sora 视频生成工具了!#ai视频# #sora# 海外产品 viva 发布了首个开放给全部用户使用的 Sora 同架构视频生成模型,而且现阶段免费。 支持文本生成视频、图片生成视频以及 4K 分辨率放大功能,另外也支持提示词的自动优化。 文生视频单次可以生成一条 5 秒的视频,图生视频是 4 秒视频 我测试了一下应该是目前运动幅度最大的视频生成模型,同时图像分辨率也是现在可以用的视频生成产品中最大的。文生视频的效果比图生视频要更好,同时如果要是用的话建议把运动幅度调到 20 左右比较合适。 viva 优势领域就是可以生成比较好的竖屏视频,目前很多视频模型的演示都是横屏视频,竖屏的表现并不好,但是短视频又是视频内容的大头,所以竖屏视频的生成质量是个很重要的指标。 但是一致性有一部分测试中保持的不是很好,同时没有表现出 Sora 那样强大的物理特性模拟以及 3D 一致性。跟谷歌 刚发布的 Veo 模型对比来看在写实内容上其实以及差不多了。 下面是 viva 的视频演示,15 秒开始有相同的提示词跟谷歌刚发布的 Veo 模型的对比。 这里体验 viva:

封面图片

:阿里巴巴开发的高保真图像到视频生成开源模型 可以生成符合真实世界运动状态的

:阿里巴巴开发的高保真图像到视频生成开源模型 可以生成符合真实世界运动状态的视频 主要功能: 1、高保真视频生成:AtomoVideo可以从单一静态图像生成高保真的视频序列,视频中的内容不仅与原始图片保持高度一致,而且动作自然流畅。 2、动作强度和连贯性:AtomoVideo生成的视频具有自然流畅的动作和良好的时间连贯性。视频中的运动看起来既自然又符合逻辑,没有突兀或不自然的过渡。 为了让视频里的动作看起来自然,AtomoVideo引入了时间卷积和时间注意力模块,这些模块专门处理视频帧之间的时间关系,帮助模型预测下一帧画面的变化,从而实现连贯的视频动作。AtomoVideo会特别处理视频的时间信息,让图片中的物体像在真实世界那样随时间移动和变化。 3、个性化适配:AtomoVideo能够与不同的个性化文本到图像(T2I)模型兼容,无需进行特定调整,这让它能够广泛适用于各种场景。AtomoVideo还能结合文字描述来生成视频。比如,你给它一张静态的海边图片,并告诉它“海浪轻轻拍打沙滩”,它就能根据这个描述生成一段海浪真的拍打沙滩的视频。

封面图片

LUMIERE 这是谷歌这段时间发布的第三个视频生成模型了,不过看起来是最重要的一个,演示的质量非常高,运动幅度和一致性表现

LUMIERE 这是谷歌这段时间发布的第三个视频生成模型了,不过看起来是最重要的一个,演示视频的质量非常高,运动幅度和一致性表现都很好。 整个模型的能力非常全面,除了视频生成之外支持各种视频编辑和生成控制能力。 支持各种内容创建任务和视频编辑应用程序,包括图像到视频、视频修复和风格化生成。 详细介绍: Lumiere 一款将文本转换为视频的先进模型,它专门用于制作展现真实、多样化及连贯动态的视频,这在视频合成领域是一大挑战。 为了实现这一目标,我们采用了一种创新的空间-时间 U-Net 架构(Space-Time U-Net architecture)。这种架构能够在模型中一次性完成整个视频时长的生成,这与传统视频模型不同。传统模型通常是先合成关键的远程帧,然后通过时间上的超级分辨率技术来处理,这种方法往往难以保持视频的全局时间连贯性。 Lumiere 通过在空间和关键的时间维度进行上下采样,并利用预先训练好的文本到图像扩散模型(text-to-image diffusion model),使我们的模型能够直接生成全帧率、低分辨率的视频,并且在多个空间-时间尺度上进行处理。 我们展现了该模型在将文本转换成视频方面的领先成果,并且证明了该设计能够轻松应用于各种内容创作和视频编辑任务,包括将图像转换为视频、视频修补和风格化视频创作。 项目地址: Invalid media:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人