Jim Fan 对于上条猜测Sora 用 UE5训练的补充说明：

Jim Fan 详细介绍了一下 Sora 的实现原理，这不仅仅是一个视频生成模型这么简单，还是一个基于数据驱动的虚幻 5 引擎。

Jim Fan 详细介绍了一下 Sora 的实现原理，这不仅仅是一个视频生成模型这么简单，还是一个基于数据驱动的虚幻 5 引擎。如果你以为OpenAI Sora只是一个像DALLE这样的创意小玩具，那你可要重新认识一下了。Sora实际上是一个基于数据驱动的物理引擎，能够模拟各种真实或奇幻的世界。这款模拟器能学会复杂的渲染技术、直观的物理规律、长期的逻辑推理以及语义理解，而这一切都是通过先进的去噪技术和梯度计算实现的。我甚至猜测，Sora可能是通过使用Unreal Engine 5生成的大量合成数据来进行训练的。这听起来非常有可能！下面我们来详细分析一段视频。这段视频的提示是：“一杯咖啡里，两艘海盗船相互战斗的逼真特写视频。” •视频中，模拟器创建了两艘装饰各异的精美海盗船的3D模型。Sora需要在其庞大的数据空间中隐式地完成从文本到3D模型的转换。 •这些3D模型的海盗船在航行中能够自然地动起来，它们在避开对方的同时，动作流畅协调。 •还有咖啡的流体动力学表现，包括船只周围形成的泡沫。流体模拟本身就是计算机图形学中一个复杂的分支，通常需要复杂的算法和方程式来实现。 •视频的光影效果逼真，几乎可以媲美光线追踪技术的渲染效果。 •模拟器还考虑到了杯子与海洋相比较小的尺寸，并运用了移轴摄影技术（Tilt-shift photography），为整个场景增添了一种微观世界的感觉。 •虽然视频中的场景在现实世界里找不到对应，但模拟器还是根据我们的期望，准确实现了物理规则。接下来的步骤是：引入更多的模态和条件变量，我们就可以得到一个全面的、基于数据驱动的Unreal Engine。它将有望替代所有现有的手工设计图形处理流程。 Invalid media:

奥尔特曼选取网友提示词用OpenAI新款大模型Sora生成视频

奥尔特曼选取网友提示词用OpenAI新款大模型Sora生成视频一位时髦女士漫步在东京街头，周围是温暖闪烁的霓虹灯和动感的城市标志。一名年约三十的宇航员戴着红色针织摩托头盔展开冒险之旅，电影预告片呈现其穿梭于蓝天白云与盐湖沙漠之间的精彩瞬间，独特的电影风格、采用35毫米胶片拍摄，色彩鲜艳。竖屏超近景视角下，这只蜥蜴细节拉满：OpenAI表示，公司正在教授人工智能理解和模拟运动中的物理世界，目标是训练出能够帮助人们解决需要与现实世界互动的问题的模型。在此，隆重推出文本到视频模型Sora。Sora可以生成长达一分钟的视频，同时保证视觉质量和符合用户提示的要求。OpenAI创始人兼CEOSam Altman（奥尔特曼）太会玩了，让网友评论回复Prompt（大语言模型中的提示词），他选一些用Sora生成视频。截至发稿，奥尔特曼连发多条根据网友提示词生成的视频，包括不同动物在海上进行自行车比赛、发布自制面疙瘩烹饪教学视频的祖母、两只金毛犬在山顶做播客、日落时分火星上进行的一场无人机竞赛等。但这些视频时长为9秒至17秒不等。技术层面，Sora采用扩散模型（diffusion probabilistic models）技术，基于Transformer架构，但为了解决Transformer架构核心组件注意力机制的长文本、高分辨率图像处理等问题，扩散模型用可扩展性更强的状态空间模型（SSM）主干替代了传统架构中的注意力机制，可以使用更少的算力，生成高分辨率图像。此前Midjourney与Stable Diffusion的图像与视频生成器同样基于扩散模型。同时，Sora也存在一定的技术不成熟之处。OpenAI表示，Sora可能难以准确模拟复杂场景的物理原理，可能无法理解因果关系，可能混淆提示的空间细节，可能难以精确描述随着时间推移发生的事件，如遵循特定的相机轨迹等。根据OpenAI关于Sora的技术报告《Video generation models as world simulators》（以下简称报告），跟大语言模型一样，Sora也有涌现的模拟能力。OpenAI方面在技术报告中表示，并未将Sora单纯视作视频模型，而是将视频生成模型作为“世界模拟器”，不仅可以在不同设备的原生宽高比直接创建内容，而且展示了一些有趣的模拟能力，如3D一致性、长期一致性和对象持久性等。目前Sora能够生成一分钟的高保真视频，OpenAI认为扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。报告指出，OpenAI研究了在视频数据上进行大规模训练的生成模型。具体而言，联合训练了文本条件扩散模型，该模型可处理不同持续时间、分辨率和长宽比的视频和图像。OpenAI利用了一种基于时空补丁的视频和图像潜在代码的变压器架构。最大的模型Sora能够生成一分钟的高保真视频。结果表明，扩展视频生成模型是构建通用物理世界模拟器的有前途的途径。报告重点介绍了OpenAI将各类型视觉数据转化为统一表示的方法，这种方法能够对生成模型进行大规模训练，并对Sora的能力与局限进行定性评估。先前的大量研究已经探索了使用多种方法对视频数据进行生成建模，包括循环网络、生成对抗网络、自回归转换器和扩散模型。这些研究往往只关注于狭窄类别的视觉数据、较短的视频或固定大小的视频。而Sora是一个通用的视觉数据模型，它能够生成跨越不同时长、纵横比和分辨率的视频和图像，甚至能够生成长达一分钟的高清视频。OpenAI从大型语言模型中汲取灵感，这些模型通过训练互联网规模的数据获得通用能力。LLM范式的成功在一定程度上得益于令牌的使用，这些令牌巧妙地统一了文本的不同模式代码、数学和各种自然语言。在这项工作中，OpenAI考虑视觉数据的生成模型如何继承这些优势。虽然LLM有文本令牌，但Sora有视觉补丁。之前已经证明，补丁是视觉数据模型的有效表示。补丁是一种高度可扩展且有效的表示，可用于在多种类型的视频和图像上训练生成模型。Sora支持采样多种分辨率视频，包括1920x1080p的宽屏视频、1080x1920的竖屏视频以及介于两者之间的所有分辨率。这使得Sora能够直接以原生纵横比为不同的设备创建内容。同时，它还允许在生成全分辨率内容之前，使用相同的模型快速制作较小尺寸的内容原型。 ... PC版：手机版：

Jim Fan 详细介绍了一下 Sora 的实现原理，这不仅仅是一个视频生成模型这么简单，还是一个基于数据驱动的虚幻 5 引擎。

Jim Fan 详细介绍了一下 Sora 的实现原理，这不仅仅是一个视频生成模型这么简单，还是一个基于数据驱动的虚幻 5 引擎。如果你以为OpenAI Sora只是一个像DALLE这样的创意小玩具，那你可要重新认识一下了。Sora实际上是一个基于数据驱动的物理引擎，能够模拟各种真实或奇幻的世界。这款模拟器能学会复杂的渲染技术、直观的物理规律、长期的逻辑推理以及语义理解，而这一切都是通过先进的去噪技术和梯度计算实现的。我甚至猜测，Sora可能是通过使用Unreal Engine 5生成的大量合成数据来进行训练的。这听起来非常有可能！下面我们来详细分析一段视频。这段视频的提示是：“一杯咖啡里，两艘海盗船相互战斗的逼真特写视频。” •视频中，模拟器创建了两艘装饰各异的精美海盗船的3D模型。Sora需要在其庞大的数据空间中隐式地完成从文本到3D模型的转换。 •这些3D模型的海盗船在航行中能够自然地动起来，它们在避开对方的同时，动作流畅协调。 •还有咖啡的流体动力学表现，包括船只周围形成的泡沫。流体模拟本身就是计算机图形学中一个复杂的分支，通常需要复杂的算法和方程式来实现。 •视频的光影效果逼真，几乎可以媲美光线追踪技术的渲染效果。 •模拟器还考虑到了杯子与海洋相比较小的尺寸，并运用了移轴摄影技术（Tilt-shift photography），为整个场景增添了一种微观世界的感觉。 •虽然视频中的场景在现实世界里找不到对应，但模拟器还是根据我们的期望，准确实现了物理规则。接下来的步骤是：引入更多的模态和条件变量，我们就可以得到一个全面的、基于数据驱动的Unreal Engine。它将有望替代所有现有的手工设计图形处理流程。

终于有普通人可以立刻使用的类 Sora 视频生成工具了！#ai# #sora#

终于有普通人可以立刻使用的类 Sora 视频生成工具了！#ai视频# #sora# 海外产品 viva 发布了首个开放给全部用户使用的 Sora 同架构视频生成模型，而且现阶段免费。支持文本生成视频、图片生成视频以及 4K 分辨率放大功能，另外也支持提示词的自动优化。文生视频单次可以生成一条 5 秒的视频，图生视频是 4 秒视频我测试了一下应该是目前运动幅度最大的视频生成模型，同时图像分辨率也是现在可以用的视频生成产品中最大的。文生视频的效果比图生视频要更好，同时如果要是用的话建议把运动幅度调到 20 左右比较合适。 viva 优势领域就是可以生成比较好的竖屏视频，目前很多视频模型的演示都是横屏视频，竖屏的表现并不好，但是短视频又是视频内容的大头，所以竖屏视频的生成质量是个很重要的指标。但是一致性有一部分测试中保持的不是很好，同时没有表现出 Sora 那样强大的物理特性模拟以及 3D 一致性。跟谷歌刚发布的 Veo 模型对比来看在写实内容上其实以及差不多了。下面是 viva 的视频演示，15 秒开始有相同的提示词跟谷歌刚发布的 Veo 模型的对比。这里体验 viva：

这是构成Sora基础之一的Diffusion Transformer论文作者关于Sora的一些猜测和技术解释。

这是构成Sora基础之一的Diffusion Transformer论文作者关于Sora的一些猜测和技术解释。这个老哥可能是除了这篇论文的另一个作者（现在在Open AI工作）之外最懂Diffusion Transformer的人了，非常值得关注。有趣的是这篇论文曾经在2023年的计算机视觉会议(CVR2023)上因“缺少创新性”而遭到拒绝，短短一年时间就变成了Sora这怪物模型的理论基础。 -正文开始- 以下是我对Sora技术报告的解读，其中包含了一些可能并不准确的猜测。首先，我非常感谢团队分享了极为有价值的见解和设计决策Sora确实令人惊叹，它将彻底改变视频生成领域。我们目前所了解到的情况如下：架构：Sora基于我们的扩散变换器（Diffusion Transformer，简称DiT）模型构建，该模型已发表在2023年国际计算机视觉会议（ICCV 2023）上。简单来说，它是一个结合了变换器（Transformer）主干的扩散模型： DiT = [变分自编码器（VAE）编码器 + 视觉变换器（ViT）+ 去噪扩散概率模型（DDPM）+ VAE解码器]。根据报告，这个模型似乎没有太多额外的复杂设计。 “视频压缩网络”：这看起来就像是一个在原始视频数据上训练的变分自编码器（VAE）。在实现良好的时间一致性方面，标记化（Tokenization）可能扮演着关键角色。顺便提一下，VAE本质上是一个卷积网络，所以从技术上说，DiT实际上是一个混合模型。 ;) 当Bill和我参与DiT项目时，我们并未专注于创新（详见我之前的推特），而是将重点放在了两个方面：简洁性和可扩展性。这些优先事项带来的不仅仅是概念上的优势。简洁性代表着灵活性。关于标准的视觉变换器（ViT），人们常忽视的一个亮点是，它让模型在处理输入数据时变得更加灵活。例如，在遮蔽自编码器（MAE）中，ViT帮助我们只处理可见的区块，忽略被遮蔽的部分。同样，Sora可以通过在适当大小的网格中排列随机初始化的区块来控制生成视频的尺寸。而UNet并不直接提供这种灵活性。猜测：Sora可能还使用了Google的Patch n’ Pack（NaViT）技术，使DiT能够适应不同的分辨率、持续时间和长宽比。

OpenAI的Sora视频生成模型也能用来渲染游戏

OpenAI的Sora视频生成模型也能用来渲染视频游戏这篇题为《作为世界模拟器的视频生成模型》（Video generation models as world simulators）的论文由多位 OpenAI 研究人员共同撰写，揭开了 Sora 架构关键方面的神秘面纱例如，Sora 可以生成任意分辨率和长宽比（最高 1080p）的视频。根据论文所述，Sora 能够执行一系列图像和视频编辑任务，从创建循环视频、向前或向后延伸视频到更改现有视频的背景。但最吸引笔者的还是 Sora"模拟数字世界"的能力，OpenAI 的合著者如是说。在一次实验中，OpenAI 将 Sora 放到 Minecraft 上，让它在控制玩家的同时渲染世界及其动态（包括物理）。Sora 在 Minecraft 中控制一名玩家，并渲染视频游戏世界，请注意，颗粒感是由视频到 GIF 的转换工具造成的，而不是 Sora。图片来源：OpenAIOpenAI那么，Sora 是如何做到这一点的呢？正如 NVIDIA 高级研究员 Jim Fan（通过 Quartz）所说，与其说 Sora 是一个创意引擎，不如说它是一个"数据驱动的物理引擎"。它不仅能生成单张照片或视频，还能确定环境中每个物体的物理特性，并根据这些计算结果渲染照片或视频（或交互式 3D 世界，视情况而定）。合著者写道："这些功能表明，继续扩展视频模型是开发物理和数字世界以及其中的物体、动物和人的高能力模拟器的一条大有可为的途径。"现在，Sora在视频游戏领域也有其通常的局限性。该模型无法准确模拟玻璃碎裂等基本互动的物理过程。即使在可以建模的互动中，Sora 也经常出现不一致的情况，例如在渲染一个人吃汉堡时，却无法渲染汉堡上的咬痕。不过，如果我没看错的话，Sora 似乎可以为更逼真（甚至可能是逼真）的程序生成游戏铺平道路。这既令人兴奋，又令人恐惧（考虑到Deepfake的影响）这也许就是为什么 OpenAI 选择暂时将 Sora 关在一个非常有限的访问程序后面的原因。相关文章:OpenAI 推出文本到视频人工智能模型 SoraOpenAI首个视频生成模型发布能生成长达1分钟的高清视频 ... PC版：手机版：

相关推荐

Jim Fan 详细介绍了一下 Sora 的实现原理，这不仅仅是一个视频生成模型这么简单，还是一个基于数据驱动的虚幻 5 引擎。

奥尔特曼选取网友提示词 用OpenAI新款大模型Sora生成视频

Jim Fan 详细介绍了一下 Sora 的实现原理，这不仅仅是一个视频生成模型这么简单，还是一个基于数据驱动的虚幻 5 引擎。

终于有普通人可以立刻使用的类 Sora 视频生成工具了！#ai# #sora#

这是构成Sora基础之一的Diffusion Transformer论文作者关于Sora的一些猜测和技术解释。

OpenAI的Sora视频生成模型也能用来渲染游戏

奥尔特曼选取网友提示词用OpenAI新款大模型Sora生成视频