前几天刷到了好几个用Pixverse做的好视频,刚好他们最近上线了网页版本和新模型就想顺便测试一下和 Runway 以及 Pik

前几天刷到了好几个用Pixverse做的好视频,刚好他们最近上线了网页版本和新模型就想顺便测试一下和Runway以及Pika的质量相比怎么样。先说结论:如果不考虑其他功能和交互我这次测试的结果Pixverse和Pika的质量接近分别是74.5分和73.5分。Runway效果居然最差只有64.5分。Pixverse的模型是这三者最为平衡的,可以有比较强的运动幅度,同时可以维持较好的一致性,模型可以比较好的对提示词进行响应,尤其是2.5D那个镜头非常的惊艳,但是纯二次元图片的效果也不是很好。Pika在动漫和2.5D风格上的优势巨大,但是只有Pika每次生成是3秒钟,所以图像质量打分会比其他两个差,写实风格效果也不是很如意,图像质量以及一致性相对差一些。Runway的模型质量和上面两者差距较大,主要是二次元风格的还原度太差还有2.5D风格直接无法维持一致性,写实场景对复杂画面改动较大有时候无法维持画面一致性,但是Runway对生成内容的控制还是三者最强的,因为其他两个都没有所以这部分就不计入分数。这里使用Pixverse:https://app.pixverse.ai/create/说一下测试的内容这次只测试视频模型的质量,所以三者都会使用图生视频来测试,这样可以忽略各自的图像模型的差距。另外每个都会使用物品特写、写实风景、写实人像、皮克斯2.5D风格、2D动画风格,这五种风格,然后每张图片生成的视频会从主题一致性、运动平滑度、运动程度以及成像质量这四个维度进行主观评分,每张图片随机一次,所以评分非常主观不保证复现,就是给大家使用的时候一个参考。下面是具体每个测试的分数,视频是三者生成视频的对比:物品特写-橘子落水:Runway主题一致性4分、运动平滑度4分、运动程度4.5分、成像质量3.5分、总分:16Pixverse主题一致性4分、运动平滑度4分、运动程度3.5分、成像质量4分、总分:15.5Pika主题一致性3.5分、运动平滑度4分、运动程度4分、成像质量3.5分、总分:15写实风景-伦敦塔着火:Runway:主题一致性2分、运动平滑度4分、运动程度4分、成像质量3.5分、总分:13.5Pixverse:主题一致性4分、运动平滑度4分、运动程度3.5分、成像质量4分、总分:15.5Pika:主题一致性3.5分、运动平滑度3.5分、运动程度3.5分、成像质量3.5分、总分:14皮克斯2.5D风格-拟人狐狸:Runway:主题一致性2分、运动平滑度3.5分、运动程度4分、成像质量2分、总分:11.5Pixverse:主题一致性4分、运动平滑度4分、运动程度4分、成像质量4分、总分:16Pika:主题一致性3.5分、运动平滑度4分、运动程度3.5分、成像质量3.5分、总分:14.5写实人像-水面古装:Runway:主题一致性4分、运动平滑度4分、运动程度2分、成像质量3.5分、总分:13.5Pixverse:主题一致性4分、运动平滑度4分、运动程度4分、成像质量4分、总分:16Pika:主题一致性3分、运动平滑度3.5分、运动程度4.5分、成像质量3分、总分:14动漫场景-植物园女孩:Runway:主题一致性1分、运动平滑度2分、运动程度4分、成像质量3分、总分:10Pixverse:主题一致性3分、运动平滑度3分、运动程度2.5分、成像质量3分、总分:11.5Pika:主题一致性4分、运动平滑度4分、运动程度4.5分、成像质量3.5分、总分:16总分:Runway:64.5、Pixverse:74.5、Pika:73.5Invalidmedia:

相关推荐

封面图片

StoryDiffusion 是一个开源的图像和视频生成模型,它通过一致自注意力机制和运动预测器,能够生成连贯的长序列图像和

StoryDiffusion是一个开源的图像和视频生成模型,它通过一致自注意力机制和运动预测器,能够生成连贯的长序列图像和视频。这个模型的主要优点在于它能够生成具有角色一致性的图像,并且可以扩展到视频生成,为用户提供了一个创造长视频的新方法。该模型对AI驱动的图像和视频生成领域有积极的影响,并且鼓励用户负责任地使用该工具。使用场景示例:使用StoryDiffusion生成一系列漫画风格的图像。创建一个基于文本提示的长视频,展示一个连贯的故事。利用StoryDiffusion进行角色设计和场景布局的预可视化。产品特色:一致自注意力机制:生成长序列中的角色一致图像。运动预测器:在压缩的图像语义空间中预测运动,实现更大的运动预测。漫画生成:利用一致自注意力机制生成的图像,无缝过渡创建视频。图像到视频的生成:提供用户输入的条件图像序列来生成视频。两阶段长视频生成:结合两个部分生成非常长且高质量的AIGC视频。条件图像使用:图像到视频模型可以通过提供一系列用户输入的条件图像来生成视频。短视频生成:提供快速的视频生成结果。

封面图片

重磅: Open AI 正式推出文生视频模型 Sora

重磅:OpenAI正式推出文生视频模型Sora名为Sora视频模型突然降临,OpenAI目前提供的情报,所揭示的一些惊人能力:-Sora根据用户提示可以生成长达一分钟的视频,同时保持视觉质量。(在这部电影预告片的提示词,非常简介:讲述30岁的太空人头戴红色羊毛针织摩托车头盔的冒险故事,蓝天、盐碱沙漠、电影风格、35毫米胶片拍摄、色彩鲜明。)-Sora能够生成包含多个角色、特定运动类型以及主体和背景准确细节的复杂场景。-Sora将理解你。这意味着和Dall·E3有着类似的体验,它具有非凡的语言理解力。-Sora还能理解这些事物在物理世界中是如何存在的;换句话说,Sora理解关于世界如何通过知识和规律进行表征,这可能是重大突破之一。(Hans注,这并不代表它是完美理解世界)-Sora还能在单个生成的视频中创建多个镜头,准确地体现角色和视觉风格。-Sora是一种采取了Transformer架构的扩散模型,不仅能生成还能延长,让模型一次性预测多帧画面,确保主体一致性。-更多官方案例参考https://openai.com/sora安全方面的声明和步骤:OpenA正在与红队人员(错误信息、仇恨内容和偏见等领域的专家)合作,他们将对模型进行对抗性测试。还在开发一些工具来帮助检测误导性内容,例如检测分类器,它可以分辨出视频是由Sora生成的。OpenAI相信,从现实世界的使用中学习,是随着时间的推移创建和发布越来越安全的人工智能系统的重要组成部分。Text2Video的生态位差不多在去年这个时候,Runway所引爆的Text2Video相关的生态位开启了重构好莱坞的想象空间。不到一年Sora的横空出生,其必将带来难以想像的变革力量。这是山峰再一次的快速攀升。从多模态的深远意义来说,我强烈意识到OpenAI描述的野心:「Sora是能够理解和模拟现实世界的模型的基础,我们相信这种能力将是实现AGI的重要里程碑。」Invalidmedia:

封面图片

LUMIERE 这是谷歌这段时间发布的第三个视频生成模型了,不过看起来是最重要的一个,演示的质量非常高,运动幅度和一致性表现

LUMIERE这是谷歌这段时间发布的第三个视频生成模型了,不过看起来是最重要的一个,演示视频的质量非常高,运动幅度和一致性表现都很好。整个模型的能力非常全面,除了视频生成之外支持各种视频编辑和生成控制能力。支持各种内容创建任务和视频编辑应用程序,包括图像到视频、视频修复和风格化生成。详细介绍:Lumiere——一款将文本转换为视频的先进模型,它专门用于制作展现真实、多样化及连贯动态的视频,这在视频合成领域是一大挑战。为了实现这一目标,我们采用了一种创新的空间-时间U-Net架构(Space-TimeU-Netarchitecture)。这种架构能够在模型中一次性完成整个视频时长的生成,这与传统视频模型不同。传统模型通常是先合成关键的远程帧,然后通过时间上的超级分辨率技术来处理,这种方法往往难以保持视频的全局时间连贯性。Lumiere通过在空间和关键的时间维度进行上下采样,并利用预先训练好的文本到图像扩散模型(text-to-imagediffusionmodel),使我们的模型能够直接生成全帧率、低分辨率的视频,并且在多个空间-时间尺度上进行处理。我们展现了该模型在将文本转换成视频方面的领先成果,并且证明了该设计能够轻松应用于各种内容创作和视频编辑任务,包括将图像转换为视频、视频修补和风格化视频创作。项目地址:https://lumiere-video.github.io/Invalidmedia:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人