谷歌的新视频生成人工智能模型Lumiere采用了一种名为Space-Time-U-Net（简称STUNet）的新扩散模型，这个模

谷歌的新视频生成人工智能模型Lumiere采用了一种名为Space-Time-U-Net（简称STUNet）的新扩散模型，这个模型能够识别视频中物体的位置（空间）以及它们是如何同时移动和变化的（时间）。据Ars Technica报道，这种方法让Lumiere能够一次性创造出视频，而不是把小的静态画面拼接起来。 Lumiere首先根据提示创建一个基础画面。然后，它利用STUNet框架开始推算画面中的物体将如何移动，以此创造出连贯的多个画面，营造出流畅运动的视觉效果。与稳定视频扩散（Stable Video Diffusion）的25帧相比，Lumiere还能生成80帧视频。标签: #Google #AI #Lumiere 频道: @GodlyNews1 投稿: @GodlyNewsBot

在Telegram中查看

相关推荐

卧槽，Open AI的大招终于来了，发布视频生成模型 Sora，从演示来看生成时长、运动幅度以及稳定性均碾压现在的所有生

卧槽，Open AI的大招终于来了，发布视频生成模型 Sora，从演示来看视频生成时长、运动幅度以及稳定性均碾压现在的所有视频生成模型。 Sora能够创作出长达一分钟的视频，不仅保证了视频的视觉质量，还能准确响应用户的指令。将在今天想有限的访问者开放。模型优势： Sora能够创造出包括多个角色、特定动作类型以及对主题和背景的精确细节描述的复杂场景。这款模型不仅能理解用户在指令中提出的需求，还能洞察这些元素在现实世界中是如何存在和表现的。这款模型对语言的理解非常深刻，使其能够精准地识别用户的指令，并创造出表情丰富、情感生动的角色。此外，Sora还能在同一视频内制作多个镜头，同时确保角色的形象和整体的视觉风格保持一致。工作原理： Sora是一种扩散模型(diffusion model)，它通过从类似静态噪声的视频出发，逐步去除噪声，从而在多个步骤中生成视频。 Sora不仅能一次生成整个视频，还能延长已有视频的长度。我们通过使模型能够预见多个画面帧，解决了确保视频中主题即使暂时离开画面也能保持一致的难题。 Sora采用了类似于GPT模型的变压器架构(transformer architecture)，这为其带来了优异的扩展性能。在Sora中，视频和图像被表示为一系列小块数据，称为“补丁”(patches)，每个补丁都类似于GPT中的“令牌”(token)。通过统一数据表示方式，我们能够在之前不可能的更广泛视觉数据范围内训练扩散变压器，包括不同的时长、分辨率和长宽比。 Sora基于DALL·E和GPT模型的研究成果。它采用了DALL·E 3中的重标记技术(recaptioning technique)，为视觉训练数据生成详细描述的标题。因此，模型能更准确地遵循用户在生成视频中的文字指令。除了能从文字指令生成视频外，Sora还能将现有静止图像转化为视频，准确地动态展现图像内容并关注细节。此外，它还能扩展现有视频或填补视频中缺失的画面。了解更多：

：阿里巴巴开发的高保真图像到视频生成开源模型可以生成符合真实世界运动状态的

：阿里巴巴开发的高保真图像到视频生成开源模型可以生成符合真实世界运动状态的视频主要功能： 1、高保真视频生成：AtomoVideo可以从单一静态图像生成高保真的视频序列，视频中的内容不仅与原始图片保持高度一致，而且动作自然流畅。 2、动作强度和连贯性：AtomoVideo生成的视频具有自然流畅的动作和良好的时间连贯性。视频中的运动看起来既自然又符合逻辑，没有突兀或不自然的过渡。为了让视频里的动作看起来自然，AtomoVideo引入了时间卷积和时间注意力模块，这些模块专门处理视频帧之间的时间关系，帮助模型预测下一帧画面的变化，从而实现连贯的视频动作。AtomoVideo会特别处理视频的时间信息，让图片中的物体像在真实世界那样随时间移动和变化。 3、个性化适配：AtomoVideo能够与不同的个性化文本到图像（T2I）模型兼容，无需进行特定调整，这让它能够广泛适用于各种场景。AtomoVideo还能结合文字描述来生成视频。比如，你给它一张静态的海边图片，并告诉它“海浪轻轻拍打沙滩”，它就能根据这个描述生成一段海浪真的拍打沙滩的视频。

是Google研究的一种新的移动端文本生成图像的方法，专为移动设备设计，是一种高效的潜在扩散模型，能够在半秒内生成高质量的512

是Google研究的一种新的移动端文本生成图像的方法，专为移动设备设计，是一种高效的潜在扩散模型，能够在半秒内生成高质量的512x512图像。 MobileDiffusion的设计遵循潜扩散模型，包括三个组件：文本编码器、扩散UNet和图像解码器。 MobileDiffusion通过优化模型架构，包括Diffusion UNet和图像解码器，展现了在计算效率上的出色表现，该技术有望在移动设备上推动快速图像生成体验，拓展了生成模型在提高用户体验和应对隐私问题方面的潜在应用。

a16z的一篇文章，详细盘点了现在人工智能视频生成领域的现状，看完就可以对这个领域有个大概的了解，感兴趣可以看看。

a16z的一篇文章，详细盘点了现在人工智能视频生成领域的现状，看完就可以对这个领域有个大概的了解，感兴趣可以看看。他们列出了 2023 视频生成产品的时间表以及对应产品的详细信息。同时对视频生成目前需要解决的问题以及视频生成领域的 ChatGPT 时刻到来需要具备的条件进行了探讨。下面是主要内容，也可以去链接看全文翻译： AI 视频领域目前需要解决的核心问题？控制：你能否控制场景中的事件以及“摄像机”的运动？对于后者，一些产品增加了可以让你进行缩放或平移摄像机，甚至添加特效的功能。至于前者即动作是否如所描述的那样这个问题更加棘手。这是一个关于基础模型质量的问题（模型是否能理解并执行你的提示）。时间连贯性：如何确保在视频的不同帧之间，角色、物体和背景的一致性，防止它们在画面中突变或扭曲？这是目前所有公开的模型普遍面临的问题。视频长度：如何制作时长超过几秒的视频片段？这个问题与时间连贯性密切相关。因为保持视频在几秒钟后仍具有一致性存在难度，许多公司限制了用户能生成的视频长度。 AI 视频领域的 ChatGPT 时刻何时到来，需要回答的几个问题？当前的扩散架构是否适合视频制作？目前的视频模型是基于扩散技术的：它们主要通过生成连续的帧并尝试创建时间上连贯的动画（采用多种策略实现）。这些模型没有对三维空间及物体间互动的内在理解，这就是扭曲或变形的原因。高质量的训练数据将从何而来？训练视频模型比训练其他内容模态更加困难，主要原因是缺乏足够的高质量、有标签的训练数据。这些用例将如何在不同平台或模型间区分开来？我们在几乎所有内容模态中观察到的现象是，没有一个模型能在所有用例中独占鳌头。谁将主导视频制作的工作流程？在目前的情况下，除了视频本身的生成，制作一段优质的视频或电影通常还需要进行编辑。我们预计视频生成平台将开始引入视频编辑需要的附加功能。翻译及原文链接：

OpenAI 发布介绍 Sora，文本转视频模型

OpenAI 发布介绍 Sora，文本转视频模型 OpenAI 发布介绍 Sora，文本转视频模型。Sora 能够创造出长达 60 秒的视频，展现高度详尽的场景、复杂的摄像机运动，以及多个角色充满活力的情感。了解更多，请访问

快手再放大招！可灵真成世界第一视频生成模型了。

快手再放大招！可灵真成世界第一视频生成模型了。发布一系列重磅更新：基础模型升级，生成更高分辨率的视频增加首尾帧控制增加运镜控制，还有自动大师运镜 Web 端上线，限时免费新模型的运动幅度和清晰度完全可以跟Gen3对标，同时美学表现也获得了提升。控制方式更是吊打现有DiT模型。 Web端地址： Invalid media:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人