LUMIERE 这是谷歌这段时间发布的第三个视频生成模型了,不过看起来是最重要的一个,演示的质量非常高,运动幅度和一致性表现
LUMIERE 这是谷歌这段时间发布的第三个视频生成模型了,不过看起来是最重要的一个,演示视频的质量非常高,运动幅度和一致性表现都很好。
整个模型的能力非常全面,除了视频生成之外支持各种视频编辑和生成控制能力。
支持各种内容创建任务和视频编辑应用程序,包括图像到视频、视频修复和风格化生成。
详细介绍:
Lumiere 一款将文本转换为视频的先进模型,它专门用于制作展现真实、多样化及连贯动态的视频,这在视频合成领域是一大挑战。
为了实现这一目标,我们采用了一种创新的空间-时间 U-Net 架构(Space-Time U-Net architecture)。这种架构能够在模型中一次性完成整个视频时长的生成,这与传统视频模型不同。传统模型通常是先合成关键的远程帧,然后通过时间上的超级分辨率技术来处理,这种方法往往难以保持视频的全局时间连贯性。
Lumiere 通过在空间和关键的时间维度进行上下采样,并利用预先训练好的文本到图像扩散模型(text-to-image diffusion model),使我们的模型能够直接生成全帧率、低分辨率的视频,并且在多个空间-时间尺度上进行处理。
我们展现了该模型在将文本转换成视频方面的领先成果,并且证明了该设计能够轻松应用于各种内容创作和视频编辑任务,包括将图像转换为视频、视频修补和风格化视频创作。
项目地址:
Invalid media: