前几天刷到了好几个用Pixverse做的好视频,刚好他们最近上线了网页版本和新模型就想顺便测试一下和 Runway 以及 Pik

前几天刷到了好几个用Pixverse做的好视频,刚好他们最近上线了网页版本和新模型就想顺便测试一下和 Runway 以及 Pika 的质量相比怎么样。 先说结论: 如果不考虑其他功能和交互我这次测试的结果Pixverse和 Pika 的质量接近分别是 74.5 分和 73.5 分。Runway 效果居然最差只有 64.5 分。 Pixverse的模型是这三者最为平衡的,可以有比较强的运动幅度,同时可以维持较好的一致性,模型可以比较好的对提示词进行响应,尤其是 2.5D 那个镜头非常的惊艳,但是纯二次元图片的效果也不是很好。 Pika 在动漫和 2.5D 风格上的优势巨大,但是只有 Pika 每次生成是 3秒钟,所以图像质量打分会比其他两个差,写实风格效果也不是很如意,图像质量以及一致性相对差一些。 Runway 的模型质量和上面两者差距较大,主要是二次元风格的还原度太差还有 2.5D 风格直接无法维持一致性,写实场景对复杂画面改动较大有时候无法维持画面一致性,但是 Runway 对生成内容的控制还是三者最强的,因为其他两个都没有所以这部分就不计入分数。 这里使用Pixverse: 说一下测试的内容这次只测试视频模型的质量,所以三者都会使用图生视频来测试,这样可以忽略各自的图像模型的差距。 另外每个都会使用物品特写、写实风景、写实人像、皮克斯 2.5D 风格、 2D 动画风格,这五种风格,然后每张图片生成的视频会从主题一致性、运动平滑度、运动程度以及成像质量这四个维度进行主观评分,每张图片随机一次,所以评分非常主观不保证复现,就是给大家使用的时候一个参考。 下面是具体每个测试的分数,视频是三者生成视频的对比: 物品特写-橘子落水: Runway 主题一致性4分、运动平滑度 4分、运动程度 4.5分、成像质量 3.5分 、总分: 16 Pixverse 主题一致性4分、运动平滑度 4分、运动程度 3.5分 、成像质量 4分 、总分:15.5 Pika 主题一致性 3.5分、运动平滑度 4分、运动程度 4分 、成像质量 3.5分、总分:15 写实风景-伦敦塔着火: Runway:主题一致性2分、运动平滑度 4分、运动程度 4分、成像质量 3.5分 、总分: 13.5 Pixverse:主题一致性4分、运动平滑度 4分、运动程度 3.5分 、成像质量 4分 、总分:15.5 Pika:主题一致性 3.5分、运动平滑度 3.5分、运动程度 3.5分 、成像质量 3.5分、总分:14 皮克斯 2.5D 风格-拟人狐狸: Runway:主题一致性2分、运动平滑度 3.5分、运动程度 4分、成像质量 2分 、总分: 11.5 Pixverse:主题一致性4分、运动平滑度 4分、运动程度 4分 、成像质量 4分 、总分:16 Pika:主题一致性 3.5分、运动平滑度 4分、运动程度 3.5分 、成像质量 3.5分、总分:14.5 写实人像-水面古装: Runway:主题一致性4分、运动平滑度 4分、运动程度 2分、成像质量 3.5分 、总分: 13.5 Pixverse:主题一致性4分、运动平滑度 4分、运动程度 4分 、成像质量 4分 、总分:16 Pika:主题一致性 3分、运动平滑度 3.5分、运动程度 4.5分 、成像质量 3分、总分:14 动漫场景-植物园女孩: Runway:主题一致性 1分、运动平滑度 2分、运动程度 4分、成像质量 3分 、总分:10 Pixverse:主题一致性3分、运动平滑度 3分、运动程度 2.5分 、成像质量 3分 、总分:11.5 Pika:主题一致性 4分、运动平滑度 4分、运动程度 4.5分 、成像质量 3.5分、总分:16 总分: Runway:64.5、Pixverse:74.5 、Pika:73.5 Invalid media:

相关推荐

封面图片

StoryDiffusion 是一个开源的图像和视频生成模型,它通过一致自注意力机制和运动预测器,能够生成连贯的长序列图像和

StoryDiffusion 是一个开源的图像和视频生成模型,它通过一致自注意力机制和运动预测器,能够生成连贯的长序列图像和视频。 这个模型的主要优点在于它能够生成具有角色一致性的图像,并且可以扩展到视频生成,为用户提供了一个创造长视频的新方法。该模型对AI驱动的图像和视频生成领域有积极的影响,并且鼓励用户负责任地使用该工具。 使用场景示例: 使用StoryDiffusion生成一系列漫画风格的图像。 创建一个基于文本提示的长视频,展示一个连贯的故事。 利用StoryDiffusion进行角色设计和场景布局的预可视化。 产品特色: 一致自注意力机制:生成长序列中的角色一致图像。 运动预测器:在压缩的图像语义空间中预测运动,实现更大的运动预测。 漫画生成:利用一致自注意力机制生成的图像,无缝过渡创建视频。 图像到视频的生成:提供用户输入的条件图像序列来生成视频。 两阶段长视频生成:结合两个部分生成非常长且高质量的AIGC视频。 条件图像使用:图像到视频模型可以通过提供一系列用户输入的条件图像来生成视频。 短视频生成:提供快速的视频生成结果。 |

封面图片

重磅: Open AI 正式推出文生视频模型 Sora

重磅: Open AI 正式推出文生视频模型 Sora 名为Sora 视频模型突然降临,Open AI 目前提供的情报,所揭示的一些惊人能力: - Sora 根据用户提示可以生成长达一分钟的视频,同时保持视觉质量。(在这部电影预告片的提示词,非常简介:讲述 30 岁的太空人头戴红色羊毛针织摩托车头盔的冒险故事,蓝天、盐碱沙漠、电影风格、35 毫米胶片拍摄、色彩鲜明。) - Sora 能够生成包含多个角色、特定运动类型以及主体和背景准确细节的复杂场景。 - Sora 将理解你。这意味着和Dall·E 3有着类似的体验,它具有非凡的语言理解力。 - Sora 还能理解这些事物在物理世界中是如何存在的;换句话说,Sora 理解关于世界如何通过知识和规律进行表征,这可能是重大突破之一。(Hans注,这并不代表它是完美理解世界) - Sora 还能在单个生成的视频中创建多个镜头,准确地体现角色和视觉风格。 - Sora 是一种采取了Transformer架构的扩散模型,不仅能生成还能延长,让模型一次性预测多帧画面,确保主体一致性。 - 更多官方案例参考 安全方面的声明和步骤: Open A 正在与红队人员(错误信息、仇恨内容和偏见等领域的专家)合作,他们将对模型进行对抗性测试。还在开发一些工具来帮助检测误导性内容,例如检测分类器,它可以分辨出视频是由 Sora 生成的。 Open AI相信,从现实世界的使用中学习,是随着时间的推移创建和发布越来越安全的人工智能系统的重要组成部分。 Text 2 Video 的生态位 差不多在去年这个时候,Runway 所引爆的 Text 2 Video相关的生态位开启了重构好莱坞的想象空间。不到一年 Sora 的横空出生,其必将带来难以想像的变革力量。这是山峰再一次的快速攀升。 从多模态的深远意义来说,我强烈意识到 Open AI 描述的野心: 「Sora 是能够理解和模拟现实世界的模型的基础,我们相信这种能力将是实现 AGI 的重要里程碑。」 Invalid media:

封面图片

LUMIERE 这是谷歌这段时间发布的第三个视频生成模型了,不过看起来是最重要的一个,演示的质量非常高,运动幅度和一致性表现

LUMIERE 这是谷歌这段时间发布的第三个视频生成模型了,不过看起来是最重要的一个,演示视频的质量非常高,运动幅度和一致性表现都很好。 整个模型的能力非常全面,除了视频生成之外支持各种视频编辑和生成控制能力。 支持各种内容创建任务和视频编辑应用程序,包括图像到视频、视频修复和风格化生成。 详细介绍: Lumiere 一款将文本转换为视频的先进模型,它专门用于制作展现真实、多样化及连贯动态的视频,这在视频合成领域是一大挑战。 为了实现这一目标,我们采用了一种创新的空间-时间 U-Net 架构(Space-Time U-Net architecture)。这种架构能够在模型中一次性完成整个视频时长的生成,这与传统视频模型不同。传统模型通常是先合成关键的远程帧,然后通过时间上的超级分辨率技术来处理,这种方法往往难以保持视频的全局时间连贯性。 Lumiere 通过在空间和关键的时间维度进行上下采样,并利用预先训练好的文本到图像扩散模型(text-to-image diffusion model),使我们的模型能够直接生成全帧率、低分辨率的视频,并且在多个空间-时间尺度上进行处理。 我们展现了该模型在将文本转换成视频方面的领先成果,并且证明了该设计能够轻松应用于各种内容创作和视频编辑任务,包括将图像转换为视频、视频修补和风格化视频创作。 项目地址: Invalid media:

封面图片

OpenAI Sora让创作者们工作轻松 他们还相信自己不会轻易被取代

OpenAI Sora让创作者们工作轻松 他们还相信自己不会轻易被取代 Sora以其独特的文本到视频转换技术而闻名,能够生成长达一分钟的高质量视频,其概念验证视频一经发布便在网络上引发了广泛的关注。然而,对于好莱坞的某些从业者来说,这种技术的出现无疑带来了某种程度的威胁。资深电影制作人泰勒·佩里(Tyler Perry)对Sora的出色表现印象深刻,但同时也感到一丝忧虑。他甚至因此暂停了原本计划投入8亿美元的工作室扩建计划,并呼吁好莱坞的工作人员团结起来,共同应对人工智能带来的挑战。尽管Sora尚未正式向公众发布,但已经有许多创意领域的工作者开始尝试使用它。他们纷纷表示,这款工具不仅让他们的工作更轻松,也没有让他们感觉自己可以被替代。相反,Sora帮助他们更加清晰地传达抽象的概念,激发了他们以新的方式将想法可视化的灵感,并且在一定程度上降低了生产成本。不过,他们也强调,目前的Sora仍然需要人类的监督和指导。品牌广告顾问夏洛特·班扬(Charlotte Bunyan)是参与测试的人员之一。她通过为一家“知名超市”制作广告来体验Sora的功能,并表示这款工具“有可能”成为她未来工作的得力助手。班扬参与了英国《金融时报》组织的一次对比测试,其中涉及了Sora与竞争对手Runway和Pika,后两家公司都声称只需几个提示词就能生成人工智能视频。在测试中,班扬直接为Pika和Runway提供了一个提示,而OpenAI则为Sora提供了经过修改的提示。班扬表示,相较于其他工具,Sora对提示内容的呈现更加“忠实”。不过,这三种工具都“能加快我们交流创意想法的方式,并使其更加具体化。”但她也提到,无论使用哪个工具,通过编辑工具生成的内容似乎都还需要加入一个“人类层面”的处理。其他人则指出,Sora在一致性方面的不足可能会带来新的创作机会。据报道,独立艺术家Washed Out的新歌《The Hardest Part》的MV是与Sora合作制作的最长作品。这段视频的导演保罗·特里罗(Paul Trillo)在X平台上的帖子中表达了他对Sora生成视频的独特感受。他“沉醉于幻觉、奇异的细节、梦幻般的运动逻辑、记忆的扭曲镜像,以及Sora和人工智能所独有的超现实品质中”。据悉,这段视频是由Sora根据详细的提示生成的55个片段拼接而成。但这些片段的连贯性并不总是完美无缺。在视频中,一对夫妇和他们的孩子的形象在不同片段中有所出入。然而,特里洛选择忽略这些差异,从某种意义上说,这些差异反而增强了视频的梦幻性质。他认为Sora能够补充创意过程,但不应成为主导工具。特里洛补充说:“你必须明白该在哪些方面与Sora较劲。在处理这件事时,你不得不放弃一点自由意志,你不得不接受它所带来的混乱和不确定性。” ... PC版: 手机版:

封面图片

奥尔特曼选取网友提示词 用OpenAI新款大模型Sora生成视频

奥尔特曼选取网友提示词 用OpenAI新款大模型Sora生成视频 一位时髦女士漫步在东京街头,周围是温暖闪烁的霓虹灯和动感的城市标志。一名年约三十的宇航员戴着红色针织摩托头盔展开冒险之旅,电影预告片呈现其穿梭于蓝天白云与盐湖沙漠之间的精彩瞬间,独特的电影风格、采用35毫米胶片拍摄,色彩鲜艳。竖屏超近景视角下,这只蜥蜴细节拉满:OpenAI表示,公司正在教授人工智能理解和模拟运动中的物理世界,目标是训练出能够帮助人们解决需要与现实世界互动的问题的模型。在此,隆重推出文本到视频模型Sora。Sora可以生成长达一分钟的视频,同时保证视觉质量和符合用户提示的要求。OpenAI创始人兼CEOSam Altman(奥尔特曼)太会玩了,让网友评论回复Prompt(大语言模型中的提示词),他选一些用Sora生成视频。截至发稿,奥尔特曼连发多条根据网友提示词生成的视频,包括不同动物在海上进行自行车比赛、发布自制面疙瘩烹饪教学视频的祖母、两只金毛犬在山顶做播客、日落时分火星上进行的一场无人机竞赛等。但这些视频时长为9秒至17秒不等。技术层面,Sora采用扩散模型(diffusion probabilistic models)技术,基于Transformer架构,但为了解决Transformer架构核心组件注意力机制的长文本、高分辨率图像处理等问题,扩散模型用可扩展性更强的状态空间模型(SSM)主干替代了传统架构中的注意力机制,可以使用更少的算力,生成高分辨率图像。此前Midjourney与Stable Diffusion的图像与视频生成器同样基于扩散模型。同时,Sora也存在一定的技术不成熟之处。OpenAI表示,Sora可能难以准确模拟复杂场景的物理原理,可能无法理解因果关系,可能混淆提示的空间细节,可能难以精确描述随着时间推移发生的事件,如遵循特定的相机轨迹等。根据OpenAI关于Sora的技术报告《Video generation models as world simulators》(以下简称报告),跟大语言模型一样,Sora也有涌现的模拟能力。OpenAI方面在技术报告中表示,并未将Sora单纯视作视频模型,而是将视频生成模型作为“世界模拟器”,不仅可以在不同设备的原生宽高比直接创建内容,而且展示了一些有趣的模拟能力,如3D一致性、长期一致性和对象持久性等。目前Sora能够生成一分钟的高保真视频,OpenAI认为扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。报告指出,OpenAI研究了在视频数据上进行大规模训练的生成模型。具体而言,联合训练了文本条件扩散模型,该模型可处理不同持续时间、分辨率和长宽比的视频和图像。OpenAI利用了一种基于时空补丁的视频和图像潜在代码的变压器架构。最大的模型Sora能够生成一分钟的高保真视频。结果表明,扩展视频生成模型是构建通用物理世界模拟器的有前途的途径。报告重点介绍了OpenAI将各类型视觉数据转化为统一表示的方法,这种方法能够对生成模型进行大规模训练,并对Sora的能力与局限进行定性评估。先前的大量研究已经探索了使用多种方法对视频数据进行生成建模,包括循环网络、生成对抗网络、自回归转换器和扩散模型。这些研究往往只关注于狭窄类别的视觉数据、较短的视频或固定大小的视频。而Sora是一个通用的视觉数据模型,它能够生成跨越不同时长、纵横比和分辨率的视频和图像,甚至能够生成长达一分钟的高清视频。OpenAI从大型语言模型中汲取灵感,这些模型通过训练互联网规模的数据获得通用能力。LLM范式的成功在一定程度上得益于令牌的使用,这些令牌巧妙地统一了文本的不同模式代码、数学和各种自然语言。在这项工作中,OpenAI考虑视觉数据的生成模型如何继承这些优势。虽然LLM有文本令牌,但Sora有视觉补丁。之前已经证明,补丁是视觉数据模型的有效表示。补丁是一种高度可扩展且有效的表示,可用于在多种类型的视频和图像上训练生成模型。Sora支持采样多种分辨率视频,包括1920x1080p的宽屏视频、1080x1920的竖屏视频以及介于两者之间的所有分辨率。这使得Sora能够直接以原生纵横比为不同的设备创建内容。同时,它还允许在生成全分辨率内容之前,使用相同的模型快速制作较小尺寸的内容原型。 ... PC版: 手机版:

封面图片

全球首个类Sora开源复现方案来了 全面公开所有训练细节和模型权重

全球首个类Sora开源复现方案来了 全面公开所有训练细节和模型权重 还能用航拍视角,展现悬崖海岸边,海水拍打着岩石的画面。亦或是延时摄影下的浩瀚星空。自Sora发布以来,由于效果惊艳但技术细节寥寥,揭秘、复现Sora成为了开发社区最热议话题之一。比如Colossal-AI团队推出成本直降46%的Sora训练推理复现流程。短短两周时间后,该团队再次发布最新进展,复现类Sora方案,并将技术方案及详细上手教程在GitHub上免费开源。那么问题来了,复现Sora如何实现?Open-Sora 开源地址: Transformer (DiT) 。它以采用DiT架构的高质量开源文生图模型PixArt-α为基座,在此基础上引入时间注意力层,将其扩展到视频数据上。具体来看,整个架构包括一个预训练好的VAE,一个文本编码器和一个利用空间-时间注意力机制的STDiT (Spatial Temporal Diffusion Transformer)模型。其中,STDiT 每层的结构如下图所示。它采用串行的方式在二维的空间注意力模块上叠加一维的时间注意力模块,用于建模时序关系。在时间注意力模块之后,交叉注意力模块用于对齐文本的语意。与全注意力机制相比,这样的结构大大降低了训练和推理开销。与同样使用空间-时间注意力机制的 Latte模型相比,STDiT 可以更好的利用已经预训练好的图像 DiT 的权重,从而在视频数据上继续训练。STDiT结构示意图整个模型的训练和推理流程如下。据了解,在训练阶段首先采用预训练好的Variational Autoencoder (VAE)的编码器将视频数据进行压缩,然后在压缩之后的潜在空间中与文本嵌入(text embedding)一起训练STDiT扩散模型。在推理阶段,从VAE的潜在空间中随机采样出一个高斯噪声,与提示词嵌入(prompt embedding)一起输入到STDiT中,得到去噪之后的特征,最后输入到VAE的解码器,解码得到视频。模型训练流程训练复现方案在训练复现部分,Open-Sora参考了Stable Video Diffusion (SVD)。一共分为3个阶段:大规模图像预训练;大规模视频预训练;高质量视频数据微调。每个阶段都会基于前一个阶段的权重继续训练。相比于从零开始单阶段训练,多阶段训练通过逐步扩展数据,更高效地达成高质量视频生成的目标。训练方案三阶段第一阶段是大规模图像预训练。团队利用互联网上丰富的图像数据和文生图技术,先训练出一个高质量的文生图模型,将该模型作为下一阶段视频预训练的初始化权重。同时,由于目前没有高质量的时空VAE,他们采用Stable Diffusion预训练好的图像VAE。这样不仅能保障初始模型的优越性能,还能显著降低视频预训练的整体成本。第二阶段是大规模视频预训练。这一阶段主要增加模型的泛化能力,有效掌握视频的时间序列关联。它需要使用大量视频数据训练,并且保障视频素材的多样性。同时,第二阶段的模型在第一阶段文生图模型的基础上加入了时序注意力模块,用于学习视频中的时序关系。其余模块与第一阶段保持一致,并加载第一阶段权重作为初始化,同时初始化时序注意力模块输出为零,以达到更高效更快速的收敛。Colossal-AI团队使用了PixArt-alpha的开源权重作为第二阶段STDiT模型的初始化,以及采用了T5模型作为文本编码器。他们采用了256x256的小分辨率进行预训练,进一步增加了收敛速度,降低训练成本。Open-Sora生成效果(提示词:水中世界的镜头,镜头中一只海龟在珊瑚礁间悠然游弋)第三阶段是高质量视频数据微调。据介绍,这一阶段能显著提升模型的生成质量。使用的数据规模比上一阶段降低一个量级,但是视频的时长、分辨率和质量都更高。通过这种方式进行微调,能实现视频生成从短到长、从低分辨率到高分辨率、从低保真度到高保真度的高效扩展。值得一提的是,Colossal-AI还详细透露了每阶段的资源使用情况。在Open-Sora的复现流程中,他们使用了64块H800进行训练。第二阶段的训练量一共是 2808 GPU hours,约合7000美元,第三阶段的训练量是1920 GPU hours,大约4500美元。经过初步估算,整个训练方案成功把Open-Sora复现流程控制在了1万美元左右。数据预处理为了进一步降低Sora复现的门槛和复杂度,Colossal-AI团队在代码仓库中还提供了便捷的视频数据预处理脚本,让大家可以轻松启动Sora复现预训练。包括公开视频数据集下载、长视频根据镜头连续性分割为短视频片段、使用开源大语言模型LLaVA生成精细的提示词。他们提供的批量视频标题生成代码可以用两卡 3 秒标注一个视频,并且质量接近于 GPT-4V。最终得到的视频/文本对可直接用于训练。借助他们在GitHub上提供的开源代码,可以轻松地在自己的数据集上快速生成训练所需的视频/文本对,显著降低了启动Sora复现项目的技术门槛和前期准备。高效训练加持除此之外,Colossal-AI团队还提供了训练加速方案。通过算子优化和混合并行等高效训练策略,在处理64帧、512x512分辨率视频的训练中,实现了1.55倍的加速效果。同时,得益于Colossal-AI的异构内存管理系统,在单台服务器上(8H800)可以无阻碍地进行1分钟的1080p高清视频训练任务。而且团队还发现STDiT模型架构在训练时也展现出卓越的高效性。和采用全注意力机制的DiT相比,随着帧数的增加,STDiT实现了高达5倍的加速效果,这在处理长视频序列等现实任务中尤为关键。最后,团队还放出了更多Open-Sora的生成效果。团队和量子位透露,他们将长期更新优化Open-Sora的相关解决方案和动态。未来将使用更多视频训练数据,以生成更高质量、更长时长的视频内容,并支持多分辨率特性。实际应用方面,团队透露将推进在电影、游戏、广告等领域落地。感兴趣的开发者们,可访问GitHub项目了解更多~Open-Sora 开源地址: Scalable Diffusion Models with Transformers[2] PixArt-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis[3] Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets[4] Latte: Latent Diffusion Transformer for Video Generation[5] ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人