OpenAI Sora:“原始版”世界模拟器 我们离黑客帝国还有多远?

OpenAI Sora:“原始版”世界模拟器 我们离黑客帝国还有多远? Sora:大力出奇迹的产物刚刚发布Gemini 1.5 Pro的谷歌,没有尝到半点甜头。刚刚官宣更新几个小时,OpenAI就拿着Sora来炸场,和Gemini有关的消息,基本都被埋在了铺天盖地的Sora新闻流里。据一些观察人士推测,OpenAI可能早在去年3月就已经完成了Sora的开发,所以才能在公关战中稳稳占据主动权。Sora到底优秀在哪里?简单来说,它是一个“大力出奇迹”的产物。Sora结合了扩散模型(DALL-E3)和转换器架构(ChatGPT)。通过这种组合,该模型可以像ChatGPT处理文本一样处理视频(即图像帧的时间序列)。最令人印象深刻的特点是它能够逼真地模拟物理世界(OpenAI 将其描述为 “新兴的模拟能力”)。在此之前,还没有任何文字视频模型能与之相媲美。例如,Sora“可以在单个生成的视频中创建多个镜头,准确地体现人物和视觉风格”。它可以制作长达1分钟的视频,但你也可以随心所欲地制作短视频。可以制作不同分辨率的竖版、方形和水平视频。而且计算量越高,视频质量也会越高。AI科学家、创业者贾佳亚在社交媒体上表示:Sora基于视频的三维结构分解压缩,用不同分辨率,不同时长,不同场景的各类视频大量训练diffusion model。在学术界连VIT的256*256的分辨率都没法改的情况下,Sora直接用上了高清以及更大的分辨率,这没几千上万张H100都不敢想象如何开始这个项目。Sora能够学习真实世界的物理规则OpenAI表示,Sora不仅能理解提示中出现的风格、场景、角色、物体和概念等,还能理解“这些事物在物理世界中是如何存在的”。Sora通过海量视频,以梯度下降的方式在神经参数中隐含地学习物理引擎。Sora是一个可学习的模拟器,或称“世界模型”。亦即,Sora可能已经学会了一套隐含的物理规则,为视频生成过程提供信息。毫无疑问,这是AI理解世界的关键一步。OpenAI在博文的最后写道:Sora是能够理解和模拟现实世界的模型的基础,我们相信这种能力将成为实现AGI的重要里程碑。在OpenAI的Dalle-3图像生成器所使用的扩散模型版本和GPT-4基于变换器的引擎的支持下,Sora不仅能按照提示要求制作视频,而且还能显示出对电影技术的熟练掌握。这就是讲故事的天赋。在另一部根据“渲染华丽的珊瑚礁纸艺世界,到处都是五颜六色的鱼和海洋生物”的提示制作的视频中。该项目的另一位研究员Bill Peebles指出,Sora通过拍摄角度和时机的选择,创造了一种叙事的推动力:实际上有多个镜头的变化这些变化不是拼接在一起的,而是由模型一次性生成的。我们没有告诉它要这么做,它只是自动这么做了。Sora不仅能根据文本制作图像和视频,或将图像和视频转换为其他视频,而且还能以通用、可扩展的方式完成这些工作,这一点与竞争对手不同。这种通用性和可扩展性促使人们预测人工智能将颠覆好莱坞和整个电影制作。考虑到进步的速度,想象一下几个月后人工智能模型能够制作出长达5或10分钟的多场景、多角色复杂视频并不是什么疯狂的事情。目前Sora还在接受安全检查和对抗性测试,没有正式发布。OpenAI希望从“世界各地的政策制定者、教育工作者和艺术家”那里收集反馈意见。他们还在开发一种检测分类器来识别Sora制作的视频,并研究如何防止错误信息。要想让文字视频威胁到真正的电影制作,恐怕还需要很长一段时间。你不可能把120个一分钟长的Sora片段拼接成一部连贯的电影,因为模型不会以完全相同的方式对提示做出反应,因此无法确保输出视频的连续性。但时间限制并不妨碍Sora和类似的软件颠覆TikTok、Reel和其他短视频平台的生产方法。一位研究者表示:要制作一部专业电影,你需要大量昂贵的设备,这种模式将使在社交媒体上制作视频的普通人有能力制作出非常高质量的内容。 ... PC版: 手机版:

相关推荐

封面图片

OpenAI的Sora视频生成模型也能用来渲染游戏

OpenAI的Sora视频生成模型也能用来渲染视频游戏 这篇题为《作为世界模拟器的视频生成模型》(Video generation models as world simulators)的论文由多位 OpenAI 研究人员共同撰写,揭开了 Sora 架构关键方面的神秘面纱例如,Sora 可以生成任意分辨率和长宽比(最高 1080p)的视频。根据论文所述,Sora 能够执行一系列图像和视频编辑任务,从创建循环视频、向前或向后延伸视频到更改现有视频的背景。但最吸引笔者的还是 Sora"模拟数字世界"的能力,OpenAI 的合著者如是说。在一次实验中,OpenAI 将 Sora 放到 Minecraft 上,让它在控制玩家的同时渲染世界及其动态(包括物理)。Sora 在 Minecraft 中控制一名玩家,并渲染视频游戏世界,请注意,颗粒感是由视频到 GIF 的转换工具造成的,而不是 Sora。图片来源:OpenAIOpenAI那么,Sora 是如何做到这一点的呢?正如 NVIDIA 高级研究员 Jim Fan(通过 Quartz)所说,与其说 Sora 是一个创意引擎,不如说它是一个"数据驱动的物理引擎"。它不仅能生成单张照片或视频,还能确定环境中每个物体的物理特性,并根据这些计算结果渲染照片或视频(或交互式 3D 世界,视情况而定)。合著者写道:"这些功能表明,继续扩展视频模型是开发物理和数字世界以及其中的物体、动物和人的高能力模拟器的一条大有可为的途径。"现在,Sora在视频游戏领域也有其通常的局限性。该模型无法准确模拟玻璃碎裂等基本互动的物理过程。即使在可以建模的互动中,Sora 也经常出现不一致的情况,例如在渲染一个人吃汉堡时,却无法渲染汉堡上的咬痕。不过,如果我没看错的话,Sora 似乎可以为更逼真(甚至可能是逼真)的程序生成游戏铺平道路。这既令人兴奋,又令人恐惧(考虑到Deepfake的影响)这也许就是为什么 OpenAI 选择暂时将 Sora 关在一个非常有限的访问程序后面的原因。相关文章:OpenAI 推出文本到视频人工智能模型 SoraOpenAI首个视频生成模型发布 能生成长达1分钟的高清视频 ... PC版: 手机版:

封面图片

奥尔特曼选取网友提示词 用OpenAI新款大模型Sora生成视频

奥尔特曼选取网友提示词 用OpenAI新款大模型Sora生成视频 一位时髦女士漫步在东京街头,周围是温暖闪烁的霓虹灯和动感的城市标志。一名年约三十的宇航员戴着红色针织摩托头盔展开冒险之旅,电影预告片呈现其穿梭于蓝天白云与盐湖沙漠之间的精彩瞬间,独特的电影风格、采用35毫米胶片拍摄,色彩鲜艳。竖屏超近景视角下,这只蜥蜴细节拉满:OpenAI表示,公司正在教授人工智能理解和模拟运动中的物理世界,目标是训练出能够帮助人们解决需要与现实世界互动的问题的模型。在此,隆重推出文本到视频模型Sora。Sora可以生成长达一分钟的视频,同时保证视觉质量和符合用户提示的要求。OpenAI创始人兼CEOSam Altman(奥尔特曼)太会玩了,让网友评论回复Prompt(大语言模型中的提示词),他选一些用Sora生成视频。截至发稿,奥尔特曼连发多条根据网友提示词生成的视频,包括不同动物在海上进行自行车比赛、发布自制面疙瘩烹饪教学视频的祖母、两只金毛犬在山顶做播客、日落时分火星上进行的一场无人机竞赛等。但这些视频时长为9秒至17秒不等。技术层面,Sora采用扩散模型(diffusion probabilistic models)技术,基于Transformer架构,但为了解决Transformer架构核心组件注意力机制的长文本、高分辨率图像处理等问题,扩散模型用可扩展性更强的状态空间模型(SSM)主干替代了传统架构中的注意力机制,可以使用更少的算力,生成高分辨率图像。此前Midjourney与Stable Diffusion的图像与视频生成器同样基于扩散模型。同时,Sora也存在一定的技术不成熟之处。OpenAI表示,Sora可能难以准确模拟复杂场景的物理原理,可能无法理解因果关系,可能混淆提示的空间细节,可能难以精确描述随着时间推移发生的事件,如遵循特定的相机轨迹等。根据OpenAI关于Sora的技术报告《Video generation models as world simulators》(以下简称报告),跟大语言模型一样,Sora也有涌现的模拟能力。OpenAI方面在技术报告中表示,并未将Sora单纯视作视频模型,而是将视频生成模型作为“世界模拟器”,不仅可以在不同设备的原生宽高比直接创建内容,而且展示了一些有趣的模拟能力,如3D一致性、长期一致性和对象持久性等。目前Sora能够生成一分钟的高保真视频,OpenAI认为扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。报告指出,OpenAI研究了在视频数据上进行大规模训练的生成模型。具体而言,联合训练了文本条件扩散模型,该模型可处理不同持续时间、分辨率和长宽比的视频和图像。OpenAI利用了一种基于时空补丁的视频和图像潜在代码的变压器架构。最大的模型Sora能够生成一分钟的高保真视频。结果表明,扩展视频生成模型是构建通用物理世界模拟器的有前途的途径。报告重点介绍了OpenAI将各类型视觉数据转化为统一表示的方法,这种方法能够对生成模型进行大规模训练,并对Sora的能力与局限进行定性评估。先前的大量研究已经探索了使用多种方法对视频数据进行生成建模,包括循环网络、生成对抗网络、自回归转换器和扩散模型。这些研究往往只关注于狭窄类别的视觉数据、较短的视频或固定大小的视频。而Sora是一个通用的视觉数据模型,它能够生成跨越不同时长、纵横比和分辨率的视频和图像,甚至能够生成长达一分钟的高清视频。OpenAI从大型语言模型中汲取灵感,这些模型通过训练互联网规模的数据获得通用能力。LLM范式的成功在一定程度上得益于令牌的使用,这些令牌巧妙地统一了文本的不同模式代码、数学和各种自然语言。在这项工作中,OpenAI考虑视觉数据的生成模型如何继承这些优势。虽然LLM有文本令牌,但Sora有视觉补丁。之前已经证明,补丁是视觉数据模型的有效表示。补丁是一种高度可扩展且有效的表示,可用于在多种类型的视频和图像上训练生成模型。Sora支持采样多种分辨率视频,包括1920x1080p的宽屏视频、1080x1920的竖屏视频以及介于两者之间的所有分辨率。这使得Sora能够直接以原生纵横比为不同的设备创建内容。同时,它还允许在生成全分辨率内容之前,使用相同的模型快速制作较小尺寸的内容原型。 ... PC版: 手机版:

封面图片

OpenAI 发布文生视频模型 Sora

OpenAI 发布文生视频模型 Sora 2月16日凌晨,OpenAI再次扔出一枚深水炸弹,发布了首个文生视频模型。Sora可以直接输出长达60秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。 一位YouTube博主Paddy Galloway发表了对Sora的感想,他表示内容创作行业已经永远的改变了,并且毫不夸张。“我进入YouTube世界已经15年时间,但OpenAI刚刚的展示让我无言…动画师/3D艺术家们有麻烦了,素材网站将变得无关紧要,任何人都可以无壁垒获得难以置信的产品,内容背后的‘想法’和故事将变得更加重要。” 但Sora模型当前也存在弱点。OpenAI称它可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系。例如,一个人可能咬了一口饼干后,饼干会没有咬痕,玻璃破碎的物理过程可能也无法被准确呈现。 频道:@kejiqu 群组:@kejiquchat

封面图片

OpenAI 推出文本到视频人工智能模型 Sora

OpenAI 推出文本到视频人工智能模型 Sora 根据 OpenAI 的介绍博文,Sora 能够创建"具有多个角色、特定运动类型以及主体和背景准确细节的复杂场景"。该公司还指出,该模型能够理解物体"在物理世界中的存在方式",还能"准确解释道具并生成表达生动情感的引人注目的角色"。该模型还能根据静态图像生成视频,以及在现有视频中填充缺失的帧或扩展视频。OpenAI 的博文中包含的 Sora 生成的演示包括淘金热时期加利福尼亚州的空中场景、从东京火车内部拍摄的视频等。许多演示都有人工智能的痕迹比如在一段博物馆的视频中,地板疑似在移动。OpenAI 表示,该模型"可能难以准确模拟复杂场景的物理现象",但总体而言,演示结果令人印象深刻。几年前,像 Midjourney 这样的文本到图像生成器在模型将文字转化为图像的能力方面处于领先地位。但最近,视频技术开始飞速进步:Runway 和 Pika 等公司都展示了自己令人印象深刻的文字转视频模型,而Google的 Lumiere 也将成为 OpenAI 在这一领域的主要竞争对手之一。与 Sora 类似,Lumiere 也为用户提供了文字转换视频的工具,还能让用户通过静态图像创建视频。Sora 目前只对"红队"人员开放,他们负责评估模型的潜在危害和风险。OpenAI 还向一些视觉艺术家、设计师和电影制片人提供访问权限,以获得反馈意见。它指出,现有模型可能无法准确模拟复杂场景的物理现象,也可能无法正确解释某些因果关系。本月早些时候,OpenAI 宣布将在其文本到图像工具 DALL-E 3 中添加水印,但指出这些水印"很容易去除"。与其他人工智能产品一样,OpenAI 将不得不面对人工智能逼真视频被误认为是真实视频的后果。 ... PC版: 手机版:

封面图片

是一个开源项目,旨在模拟尚未发布的 OpenAI Sora API。

是一个开源项目,旨在模拟尚未发布的 OpenAI Sora API。 它为开发人员提供了一个平台,让他们可以使用 Sora API 的模拟版本开始开发和测试他们的项目。 这使他们能够在实际的 Sora API 可用后准备与它集成,从而促进在模拟环境中进行早期开发和测试。 FakeSoraAPI 模仿了官方 API 的预期功能,使其成为期待 OpenAI Sora 模型发布的开发人员的宝贵工具。

封面图片

对sora比较深入的分析

对sora比较深入的分析 从电影和游戏行业的视角出发。指出了Sora在模拟物理现象和创意内容生成方面的局限性,也强调了其在多模态学习和生成能力上的潜力。以下是意见的总结: Sora的局限性: Sora虽然能够模拟物理现象,但其物理理解仍然脆弱,无法完全替代专业的物理引擎。 在物体交互和物理规则的理解上存在不足,可能导致超现实的结果。 Sora的生成内容依赖于大量数据的压缩和提炼,而非完全的物理模拟。 Sora的创新与潜力: 通过将视频内容压缩到隐空间,Sora有效地解决了处理高分辨率视频所需的计算资源问题。 其技术可能影响实时影像资料的处理和分析,如直播和监控视频数据。 Sora的应用可能为AI模型训练提供新路径,特别是在多模态数据和复杂现实世界情境的理解方面。 对未来的展望: Sora技术的发展可能需要在提升算力和优化算法效率之间找到平衡。 尽管Sora不会取代游戏引擎开发者或影视特效师,但它可以作为创意预览阶段的工具,帮助普通人进行民主化创作。 Sora的多模态能力可能通过3D引擎模型进一步发展,为虚拟世界的构建提供自动化支持。 这个见解强调AI在创意和模拟物理现象方面的潜力,同时也提醒我们AI技术仍有待发展,特别是在理解和模拟复杂物理世界方面。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人