前几天刷到了好几个用Pixverse做的好视频,刚好他们最近上线了网页版本和新模型就想顺便测试一下和 Runway 以及 Pik

前几天刷到了好几个用Pixverse做的好视频,刚好他们最近上线了网页版本和新模型就想顺便测试一下和 Runway 以及 Pika 的质量相比怎么样。 先说结论: 如果不考虑其他功能和交互我这次测试的结果Pixverse和 Pika 的质量接近分别是 74.5 分和 73.5 分。Runway 效果居然最差只有 64.5 分。 Pixverse的模型是这三者最为平衡的,可以有比较强的运动幅度,同时可以维持较好的一致性,模型可以比较好的对提示词进行响应,尤其是 2.5D 那个镜头非常的惊艳,但是纯二次元图片的效果也不是很好。 Pika 在动漫和 2.5D 风格上的优势巨大,但是只有 Pika 每次生成是 3秒钟,所以图像质量打分会比其他两个差,写实风格效果也不是很如意,图像质量以及一致性相对差一些。 Runway 的模型质量和上面两者差距较大,主要是二次元风格的还原度太差还有 2.5D 风格直接无法维持一致性,写实场景对复杂画面改动较大有时候无法维持画面一致性,但是 Runway 对生成内容的控制还是三者最强的,因为其他两个都没有所以这部分就不计入分数。 这里使用Pixverse: 说一下测试的内容这次只测试视频模型的质量,所以三者都会使用图生视频来测试,这样可以忽略各自的图像模型的差距。 另外每个都会使用物品特写、写实风景、写实人像、皮克斯 2.5D 风格、 2D 动画风格,这五种风格,然后每张图片生成的视频会从主题一致性、运动平滑度、运动程度以及成像质量这四个维度进行主观评分,每张图片随机一次,所以评分非常主观不保证复现,就是给大家使用的时候一个参考。 下面是具体每个测试的分数,视频是三者生成视频的对比: 物品特写-橘子落水: Runway 主题一致性4分、运动平滑度 4分、运动程度 4.5分、成像质量 3.5分 、总分: 16 Pixverse 主题一致性4分、运动平滑度 4分、运动程度 3.5分 、成像质量 4分 、总分:15.5 Pika 主题一致性 3.5分、运动平滑度 4分、运动程度 4分 、成像质量 3.5分、总分:15 写实风景-伦敦塔着火: Runway:主题一致性2分、运动平滑度 4分、运动程度 4分、成像质量 3.5分 、总分: 13.5 Pixverse:主题一致性4分、运动平滑度 4分、运动程度 3.5分 、成像质量 4分 、总分:15.5 Pika:主题一致性 3.5分、运动平滑度 3.5分、运动程度 3.5分 、成像质量 3.5分、总分:14 皮克斯 2.5D 风格-拟人狐狸: Runway:主题一致性2分、运动平滑度 3.5分、运动程度 4分、成像质量 2分 、总分: 11.5 Pixverse:主题一致性4分、运动平滑度 4分、运动程度 4分 、成像质量 4分 、总分:16 Pika:主题一致性 3.5分、运动平滑度 4分、运动程度 3.5分 、成像质量 3.5分、总分:14.5 写实人像-水面古装: Runway:主题一致性4分、运动平滑度 4分、运动程度 2分、成像质量 3.5分 、总分: 13.5 Pixverse:主题一致性4分、运动平滑度 4分、运动程度 4分 、成像质量 4分 、总分:16 Pika:主题一致性 3分、运动平滑度 3.5分、运动程度 4.5分 、成像质量 3分、总分:14 动漫场景-植物园女孩: Runway:主题一致性 1分、运动平滑度 2分、运动程度 4分、成像质量 3分 、总分:10 Pixverse:主题一致性3分、运动平滑度 3分、运动程度 2.5分 、成像质量 3分 、总分:11.5 Pika:主题一致性 4分、运动平滑度 4分、运动程度 4.5分 、成像质量 3.5分、总分:16 总分: Runway:64.5、Pixverse:74.5 、Pika:73.5 Invalid media:

相关推荐

封面图片

StoryDiffusion 是一个开源的图像和视频生成模型,它通过一致自注意力机制和运动预测器,能够生成连贯的长序列图像和

StoryDiffusion 是一个开源的图像和视频生成模型,它通过一致自注意力机制和运动预测器,能够生成连贯的长序列图像和视频。 这个模型的主要优点在于它能够生成具有角色一致性的图像,并且可以扩展到视频生成,为用户提供了一个创造长视频的新方法。该模型对AI驱动的图像和视频生成领域有积极的影响,并且鼓励用户负责任地使用该工具。 使用场景示例: 使用StoryDiffusion生成一系列漫画风格的图像。 创建一个基于文本提示的长视频,展示一个连贯的故事。 利用StoryDiffusion进行角色设计和场景布局的预可视化。 产品特色: 一致自注意力机制:生成长序列中的角色一致图像。 运动预测器:在压缩的图像语义空间中预测运动,实现更大的运动预测。 漫画生成:利用一致自注意力机制生成的图像,无缝过渡创建视频。 图像到视频的生成:提供用户输入的条件图像序列来生成视频。 两阶段长视频生成:结合两个部分生成非常长且高质量的AIGC视频。 条件图像使用:图像到视频模型可以通过提供一系列用户输入的条件图像来生成视频。 短视频生成:提供快速的视频生成结果。 |

封面图片

重磅: Open AI 正式推出文生视频模型 Sora

重磅: Open AI 正式推出文生视频模型 Sora 名为Sora 视频模型突然降临,Open AI 目前提供的情报,所揭示的一些惊人能力: - Sora 根据用户提示可以生成长达一分钟的视频,同时保持视觉质量。(在这部电影预告片的提示词,非常简介:讲述 30 岁的太空人头戴红色羊毛针织摩托车头盔的冒险故事,蓝天、盐碱沙漠、电影风格、35 毫米胶片拍摄、色彩鲜明。) - Sora 能够生成包含多个角色、特定运动类型以及主体和背景准确细节的复杂场景。 - Sora 将理解你。这意味着和Dall·E 3有着类似的体验,它具有非凡的语言理解力。 - Sora 还能理解这些事物在物理世界中是如何存在的;换句话说,Sora 理解关于世界如何通过知识和规律进行表征,这可能是重大突破之一。(Hans注,这并不代表它是完美理解世界) - Sora 还能在单个生成的视频中创建多个镜头,准确地体现角色和视觉风格。 - Sora 是一种采取了Transformer架构的扩散模型,不仅能生成还能延长,让模型一次性预测多帧画面,确保主体一致性。 - 更多官方案例参考 安全方面的声明和步骤: Open A 正在与红队人员(错误信息、仇恨内容和偏见等领域的专家)合作,他们将对模型进行对抗性测试。还在开发一些工具来帮助检测误导性内容,例如检测分类器,它可以分辨出视频是由 Sora 生成的。 Open AI相信,从现实世界的使用中学习,是随着时间的推移创建和发布越来越安全的人工智能系统的重要组成部分。 Text 2 Video 的生态位 差不多在去年这个时候,Runway 所引爆的 Text 2 Video相关的生态位开启了重构好莱坞的想象空间。不到一年 Sora 的横空出生,其必将带来难以想像的变革力量。这是山峰再一次的快速攀升。 从多模态的深远意义来说,我强烈意识到 Open AI 描述的野心: 「Sora 是能够理解和模拟现实世界的模型的基础,我们相信这种能力将是实现 AGI 的重要里程碑。」 Invalid media:

封面图片

OpenAI Sora让创作者们工作轻松 他们还相信自己不会轻易被取代

OpenAI Sora让创作者们工作轻松 他们还相信自己不会轻易被取代 Sora以其独特的文本到视频转换技术而闻名,能够生成长达一分钟的高质量视频,其概念验证视频一经发布便在网络上引发了广泛的关注。然而,对于好莱坞的某些从业者来说,这种技术的出现无疑带来了某种程度的威胁。资深电影制作人泰勒·佩里(Tyler Perry)对Sora的出色表现印象深刻,但同时也感到一丝忧虑。他甚至因此暂停了原本计划投入8亿美元的工作室扩建计划,并呼吁好莱坞的工作人员团结起来,共同应对人工智能带来的挑战。尽管Sora尚未正式向公众发布,但已经有许多创意领域的工作者开始尝试使用它。他们纷纷表示,这款工具不仅让他们的工作更轻松,也没有让他们感觉自己可以被替代。相反,Sora帮助他们更加清晰地传达抽象的概念,激发了他们以新的方式将想法可视化的灵感,并且在一定程度上降低了生产成本。不过,他们也强调,目前的Sora仍然需要人类的监督和指导。品牌广告顾问夏洛特·班扬(Charlotte Bunyan)是参与测试的人员之一。她通过为一家“知名超市”制作广告来体验Sora的功能,并表示这款工具“有可能”成为她未来工作的得力助手。班扬参与了英国《金融时报》组织的一次对比测试,其中涉及了Sora与竞争对手Runway和Pika,后两家公司都声称只需几个提示词就能生成人工智能视频。在测试中,班扬直接为Pika和Runway提供了一个提示,而OpenAI则为Sora提供了经过修改的提示。班扬表示,相较于其他工具,Sora对提示内容的呈现更加“忠实”。不过,这三种工具都“能加快我们交流创意想法的方式,并使其更加具体化。”但她也提到,无论使用哪个工具,通过编辑工具生成的内容似乎都还需要加入一个“人类层面”的处理。其他人则指出,Sora在一致性方面的不足可能会带来新的创作机会。据报道,独立艺术家Washed Out的新歌《The Hardest Part》的MV是与Sora合作制作的最长作品。这段视频的导演保罗·特里罗(Paul Trillo)在X平台上的帖子中表达了他对Sora生成视频的独特感受。他“沉醉于幻觉、奇异的细节、梦幻般的运动逻辑、记忆的扭曲镜像,以及Sora和人工智能所独有的超现实品质中”。据悉,这段视频是由Sora根据详细的提示生成的55个片段拼接而成。但这些片段的连贯性并不总是完美无缺。在视频中,一对夫妇和他们的孩子的形象在不同片段中有所出入。然而,特里洛选择忽略这些差异,从某种意义上说,这些差异反而增强了视频的梦幻性质。他认为Sora能够补充创意过程,但不应成为主导工具。特里洛补充说:“你必须明白该在哪些方面与Sora较劲。在处理这件事时,你不得不放弃一点自由意志,你不得不接受它所带来的混乱和不确定性。” ... PC版: 手机版:

封面图片

LUMIERE 这是谷歌这段时间发布的第三个视频生成模型了,不过看起来是最重要的一个,演示的质量非常高,运动幅度和一致性表现

LUMIERE 这是谷歌这段时间发布的第三个视频生成模型了,不过看起来是最重要的一个,演示视频的质量非常高,运动幅度和一致性表现都很好。 整个模型的能力非常全面,除了视频生成之外支持各种视频编辑和生成控制能力。 支持各种内容创建任务和视频编辑应用程序,包括图像到视频、视频修复和风格化生成。 详细介绍: Lumiere 一款将文本转换为视频的先进模型,它专门用于制作展现真实、多样化及连贯动态的视频,这在视频合成领域是一大挑战。 为了实现这一目标,我们采用了一种创新的空间-时间 U-Net 架构(Space-Time U-Net architecture)。这种架构能够在模型中一次性完成整个视频时长的生成,这与传统视频模型不同。传统模型通常是先合成关键的远程帧,然后通过时间上的超级分辨率技术来处理,这种方法往往难以保持视频的全局时间连贯性。 Lumiere 通过在空间和关键的时间维度进行上下采样,并利用预先训练好的文本到图像扩散模型(text-to-image diffusion model),使我们的模型能够直接生成全帧率、低分辨率的视频,并且在多个空间-时间尺度上进行处理。 我们展现了该模型在将文本转换成视频方面的领先成果,并且证明了该设计能够轻松应用于各种内容创作和视频编辑任务,包括将图像转换为视频、视频修补和风格化视频创作。 项目地址: Invalid media:

封面图片

奥尔特曼选取网友提示词 用OpenAI新款大模型Sora生成视频

奥尔特曼选取网友提示词 用OpenAI新款大模型Sora生成视频 一位时髦女士漫步在东京街头,周围是温暖闪烁的霓虹灯和动感的城市标志。一名年约三十的宇航员戴着红色针织摩托头盔展开冒险之旅,电影预告片呈现其穿梭于蓝天白云与盐湖沙漠之间的精彩瞬间,独特的电影风格、采用35毫米胶片拍摄,色彩鲜艳。竖屏超近景视角下,这只蜥蜴细节拉满:OpenAI表示,公司正在教授人工智能理解和模拟运动中的物理世界,目标是训练出能够帮助人们解决需要与现实世界互动的问题的模型。在此,隆重推出文本到视频模型Sora。Sora可以生成长达一分钟的视频,同时保证视觉质量和符合用户提示的要求。OpenAI创始人兼CEOSam Altman(奥尔特曼)太会玩了,让网友评论回复Prompt(大语言模型中的提示词),他选一些用Sora生成视频。截至发稿,奥尔特曼连发多条根据网友提示词生成的视频,包括不同动物在海上进行自行车比赛、发布自制面疙瘩烹饪教学视频的祖母、两只金毛犬在山顶做播客、日落时分火星上进行的一场无人机竞赛等。但这些视频时长为9秒至17秒不等。技术层面,Sora采用扩散模型(diffusion probabilistic models)技术,基于Transformer架构,但为了解决Transformer架构核心组件注意力机制的长文本、高分辨率图像处理等问题,扩散模型用可扩展性更强的状态空间模型(SSM)主干替代了传统架构中的注意力机制,可以使用更少的算力,生成高分辨率图像。此前Midjourney与Stable Diffusion的图像与视频生成器同样基于扩散模型。同时,Sora也存在一定的技术不成熟之处。OpenAI表示,Sora可能难以准确模拟复杂场景的物理原理,可能无法理解因果关系,可能混淆提示的空间细节,可能难以精确描述随着时间推移发生的事件,如遵循特定的相机轨迹等。根据OpenAI关于Sora的技术报告《Video generation models as world simulators》(以下简称报告),跟大语言模型一样,Sora也有涌现的模拟能力。OpenAI方面在技术报告中表示,并未将Sora单纯视作视频模型,而是将视频生成模型作为“世界模拟器”,不仅可以在不同设备的原生宽高比直接创建内容,而且展示了一些有趣的模拟能力,如3D一致性、长期一致性和对象持久性等。目前Sora能够生成一分钟的高保真视频,OpenAI认为扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。报告指出,OpenAI研究了在视频数据上进行大规模训练的生成模型。具体而言,联合训练了文本条件扩散模型,该模型可处理不同持续时间、分辨率和长宽比的视频和图像。OpenAI利用了一种基于时空补丁的视频和图像潜在代码的变压器架构。最大的模型Sora能够生成一分钟的高保真视频。结果表明,扩展视频生成模型是构建通用物理世界模拟器的有前途的途径。报告重点介绍了OpenAI将各类型视觉数据转化为统一表示的方法,这种方法能够对生成模型进行大规模训练,并对Sora的能力与局限进行定性评估。先前的大量研究已经探索了使用多种方法对视频数据进行生成建模,包括循环网络、生成对抗网络、自回归转换器和扩散模型。这些研究往往只关注于狭窄类别的视觉数据、较短的视频或固定大小的视频。而Sora是一个通用的视觉数据模型,它能够生成跨越不同时长、纵横比和分辨率的视频和图像,甚至能够生成长达一分钟的高清视频。OpenAI从大型语言模型中汲取灵感,这些模型通过训练互联网规模的数据获得通用能力。LLM范式的成功在一定程度上得益于令牌的使用,这些令牌巧妙地统一了文本的不同模式代码、数学和各种自然语言。在这项工作中,OpenAI考虑视觉数据的生成模型如何继承这些优势。虽然LLM有文本令牌,但Sora有视觉补丁。之前已经证明,补丁是视觉数据模型的有效表示。补丁是一种高度可扩展且有效的表示,可用于在多种类型的视频和图像上训练生成模型。Sora支持采样多种分辨率视频,包括1920x1080p的宽屏视频、1080x1920的竖屏视频以及介于两者之间的所有分辨率。这使得Sora能够直接以原生纵横比为不同的设备创建内容。同时,它还允许在生成全分辨率内容之前,使用相同的模型快速制作较小尺寸的内容原型。 ... PC版: 手机版:

封面图片

周鸿祎谈Sora模型:中美AI差距可能还在加大

周鸿祎谈Sora模型:中美AI差距可能还在加大 周鸿祎表示,AI不一定那么快颠覆所有行业,但它能激发更多人的创作力。今天 Sora 可能给广告业、电影预告片、短视频行业带来巨大的颠覆,但它不一定那么快击败 TikTok,更可能成为 TikTok的创作工具。同时,周鸿祎还谈到中美AI差距,他认为:OpenAl手里应该还藏着一些秘密武器,无论是 GPT-5,还是机器自我学习自动产生内容,包括 AIGC。他们手里的武器并没有全拿出来。这样看来中国跟美国的 AI 差距可能还在加大。以下为全文:Sora意味着 AGI实现将从10年缩短到1年年前我在风马牛演讲上分享了大模型十大趋势预测,没想到年还没过完,就验证了好几个从 Gemini、英伟达的 Chat With RTX到 OpenA!发布 Sora,大家都觉得很炸裂。朋友问我怎么看 Sora,我谈几个观点,总体来说就是我认为AGI很快会实现,就这几年的事儿了:第一,科技竞争最终比拼的是让人才密度和深厚积累。很多人说 Sora的效果吊打 Pika和Runway。这很正常,和创业者团队比OpenAl 这种有核心技术的公司实力还是非常强劲的。有人认为有了 AI以后创业公司只需要做个体户就行,实际今天再次证明这种想法是非常可笑的。第二,AI不一定那么快颠覆所有行业,但它能激发更多人的创作力。今天很多人谈到 Sora 对影视工业的打击,我倒不觉得是这样,因为机器能生产一个好视频,但视频的主题、脚本和分镜头策划、台词的配合,都需要人的创意至少需要人给提示词。一个视频或者电影是由无数个 60 秒组成的。今天 Sora 可能给广告业、电影预告片、短视频行业带来巨大的颠覆,但它不一定那么快击败 TikTok,更可能成为 TikTok的创作工具。第三,我一直说国内大模型发展水平表面看已经接近 GPT-3.5 了,但实际上跟 4.0 比还有一年半的差距。而且我相信 OpenAl手里应该还藏着一些秘密武器,无论是 GPT-5,还是机器自我学习自动产生内容,包括 AIGC。奥特曼是个营销大师,知道怎样掌握节奏,他们手里的武器并没有全拿出来。这样看来中国跟美国的 AI 差距可能还在加大。第四,大语言模型最牛的是,它不是填空机,而是能完整地理解这个世界的知识。这次很多人从技术上、从产品体验上分析Sora,强调它能输出 60 秒视频,保持多镜头的一致性,模拟自然世界和物理规律,实际这些都比较表象,最重要的是 Sora 的技术思路完全不一样。因为这之前我们做视频做图用的都是 Diffusion,你可以把视频看成是多个真实图片的组合,它并没有真正掌握这个世界的知识。现在所有的文生图、文生视频都是在 2D 平面上对图形元素进行操作,并没有适用物理定律。但 Sora 产生的视频里,它能像人一样理解坦克是有巨大冲击力的,坦克能撞毁汽车,而不会出现汽车撞毁坦克这样的情况。所以我理解这次 OpenAl 利用它的大语言模型优势,把LLM 和 Diffusion 结合起来训练,让 Sora 实现了对现实世界的理解和对世界的模拟两层能力,这样产生的视频才是真实的,才能跳出 2D 的范围模拟真实的物理世界。这都是大模型的功劳。这也代表未来的方向。有强劲的大模型做底子,基于对人类语言的理解,对人类知识和世界模型的了解,再叠加很多其他的技术,就可以创造各个领域的超级工具,比如生物医学蛋白质和基因研究,包括物理、化学、数学的学科研究上,大模型都会发挥作用。这次 Sora对物理世界的模拟,至少将会对机器人具身智能和自动驾驶带来巨大的影响。原来的自动驾驶技术过度强调感知层面,而没有工作在认知层面。其实人在驾驶汽车的时候,很多判断是基于对这个世界的理解。比如对方的速度怎么样,能否发生碰撞,碰撞严重性如何,如果没有对世界的理解就很难做出一个真正的无人驾驶。所以这次 Sora 只是小试牛刀,它展现的不仅仅是一个视频制作的能力,它展现的是大模型对真实世界有了理解和模拟之后,会带来新的成果和突破。第五,Open Al训练这个模型应该会阅读大量视频。大模型加上 Diffusion 技术需要对这个世界进行进一步了解,学习样本就会以视频和摄像头捕捉到的画面为主。一旦人工智能接上摄像头,把所有的电影都看一遍,把YouTube 上和 TikTok 的视频都看一遍,对世界的理解将远远超过文字学习,一幅图胜过千言万语,而视频传递的信息量又远远超过一幅图,这就离AGI真的就不远了,不是10年20年的问题,可能一两年很快就可以实现。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人