OpenAI王炸模型引爆科技圈官方技术报告说了什么？

OpenAI王炸模型引爆科技圈官方技术报告说了什么？而在2024年开年，OpenAI就发布了王炸文生视频大模型Sora，它能够仅仅根据提示词，生成60s的连贯视频，“碾压”了行业目前大概只有平均“4s”的视频生成长度。为了方便理解，我们简单总结了这个模型的强大之处：1、文本到视频生成能力：Sora能够根据用户提供的文本描述生成长达60S的视频，这些视频不仅保持了视觉品质，而且完整准确还原了用户的提示语。2、复杂场景和角色生成能力：Sora能够生成包含多个角色、特定运动类型以及主题精确、背景细节复杂的场景。它能够创造出生动的角色表情和复杂的运镜，使得生成的视频具有高度的逼真性和叙事效果。3、语言理解能力：Sora拥有深入的语言理解能力，能够准确解释提示并生成能表达丰富情感的角色。这使得模型能够更好地理解用户的文本指令，并在生成的视频内容中忠实地反映这些指令。4、多镜头生成能力：Sora可以在单个生成的视频中创建多个镜头，同时保持角色和视觉风格的一致性。这种能力对于制作电影预告片、动画或其他需要多视角展示的内容非常有用。5、从静态图像生成视频能力：Sora不仅能够从文本生成视频，还能够从现有的静态图像开始，准确地动画化图像内容，或者扩展现有视频，填补视频中的缺失帧。6、物理世界模拟能力：Sora展示了人工智能在理解真实世界场景并与之互动的能力，这是朝着实现通用人工智能（AGI）的重要一步。它能够模拟真实物理世界的运动，如物体的移动和相互作用。可以说，Sora的出现，预示着一个全新的视觉叙事时代的到来，它能够将人们的想象力转化为生动的动态画面，将文字的魔力转化为视觉的盛宴。在这个由数据和算法编织的未来，Sora正以其独特的方式，重新定义着我们与数字世界的互动。一反常态，OpenAI在模型公布后的不久，就公布了相关的技术Paper，我们第一时间“啃”了这篇技术报告，希望能够帮助大家理解到底有哪些神奇的技术，让Sora能够有如此强大的魔力。01以下为OpenAI文生视频模型Sora官方技术报告我们探索了利用视频数据对生成模型进行大规模训练。具体来说，我们在不同持续时间、分辨率和纵横比的视频和图像上联合训练了以文本为输入条件的扩散模型。我们引入了一种transformer架构，该架构对视频的时空序列包和图像潜在编码进行操作。我们最顶尖的模型Sora已经能够生成最长一分钟的高保真视频，这标志着我们在视频生成领域取得了重大突破。我们的研究结果表明，通过扩大视频生成模型的规模，我们有望构建出能够模拟物理世界的通用模拟器，这无疑是一条极具前景的发展道路。这份技术报告主要聚焦于两大方面：首先，我们详细介绍了一种将各类可视数据转化为统一表示的方法，从而实现了对生成式模型的大规模训练；其次，我们对Sora的能力及其局限性进行了深入的定性评估。需要注意的是，本报告并未涉及模型的具体技术细节。在过去的研究中，许多团队已经尝试使用递归网络、生成对抗网络、自回归Transformer和扩散模型等各种方法，对视频数据的生成式建模进行了深入研究。然而，这些工作通常仅限于较窄类别的视觉数据、较短的视频或固定大小的视频上。相比之下，Sora作为一款通用的视觉数据模型，其卓越之处在于能够生成跨越不同持续时间、纵横比和分辨率的视频和图像，甚至包括生成长达一分钟的高清视频。将可视数据转换成数据包（patchs）在可视数据的处理上，我们借鉴了大语言模型的成功经验。这些模型通过对互联网规模的数据进行训练，获得了强大的通用能力。同样，我们考虑如何将这种优势引入到可视数据的生成式模型中。大语言模型通过token将各种形式的文本代码、数学和自然语言统一起来，而Sora则通过视觉包（patchs）实现了类似的效果。我们发现，对于不同类型的视频和图像，包是一种高度可扩展且有效的表示方式，对于训练生成模型具有重要意义。图注：OpenAI专门设计的解码器模型，它可以将生成的潜在表示重新映射回像素空间在更高层次上，我们首先将视频压缩到一个低维度的潜在空间：这是通过对视频进行时间和空间上的压缩实现的。这个潜在空间可以看作是一个“时空包”的集合，从而将原始视频转化为这些包。视频压缩网络我们专门训练了一个网络，专门负责降低视觉数据的维度。这个网络接收原始视频作为输入，并输出经过压缩的潜在表示。Sora模型就是在这个压缩后的潜在空间中接受训练，并最终生成视频。此外，我们还设计了一个解码器模型，它可以将生成的潜在表示重新映射回像素空间，从而生成可视的视频或图像。时空包当给定一个压缩后的输入视频时，我们会从中提取出一系列的时空包，这些包被用作转换token。这一方案不仅适用于视频，因为视频本质上就是由连续帧构成的，所以图像也可以看作是单帧的视频。通过这种基于包的表示方式，Sora能够跨越不同分辨率、持续时间和纵横比的视频和图像进行训练。在推理阶段，我们只需在适当大小的网格中安排随机初始化的包，就可以控制生成视频的大小和分辨率。用于视频生成的缩放TransformersSora是一个扩散模型，它接受输入的噪声包（以及如文本提示等条件性输入信息），然后被训练去预测原始的“干净”包。重要的是，Sora是一个基于扩散的转换器模型，这种模型已经在多个领域展现了显著的扩展性，包括语言建模、计算机视觉以及图像生成等领域。在这项工作中，我们发现扩散转换器在视频生成领域同样具有巨大的潜力。我们展示了不同训练阶段下，使用相同种子和输入的视频样本对比，结果证明了随着训练量的增加，样本质量有着明显的提高。丰富的持续时间、分辨率与纵横比过去，图像和视频生成方法常常需要将视频调整大小、裁剪或修剪至标准尺寸，如4秒、256x256分辨率的视频。但Sora打破了这一常规，它直接在原始大小的数据上进行训练，从而带来了诸多优势。采样更灵活Sora具备出色的采样能力，无论是宽屏1920x1080p视频、垂直1080x1920视频，还是介于两者之间的任何视频尺寸，它都能轻松应对。这意味着Sora可以为各种设备生成与其原始纵横比完美匹配的内容。更令人惊叹的是，即使在生成全分辨率内容之前，Sora也能以较小的尺寸迅速创建内容原型。而所有这一切，都得益于使用相同的模型。图注：Sora可以为各种设备生成与其原始纵横比完美匹配的内容改进构图与框架我们的实验结果显示，在视频的原始纵横比上进行训练，能够显著提升构图和框架的质量。为了验证这一点，我们将Sora与一个将所有训练视频裁剪为方形的模型版本进行了比较。结果发现，在正方形裁剪上训练的模型有时会生成仅部分显示主题的视频。而Sora则能呈现出更加完美的帧，充分展现了其在视频生成领域的卓越性能。图注：将所有训练视频裁剪为方形的模型相比（左），Sora能呈现出更加完美的帧语言理解深化为了训练文本转视频生成系统，需要大量带有相应文本字幕的视频。为此，我们借鉴了DALL·E3中的re-captioning技术，并应用于视频领域。首先，我们训练了一个高度描述性的转译员模型，然后使用它为我们训练集中的所有视频生成文本转译。通过这种方式，我们发现对高度描述性的视频转译进行训练，可以显著提高文本保真度和视频的整体质量。与此同时，与DALL·E3类似，我们还利用GPT技术将简短的用户提示转换为更长的详细转译，并将其发送...PC版：https://www.cnbeta.com.tw/articles/soft/1418569.htm手机版：https://m.cnbeta.com.tw/view/1418569.htm

在Telegram中查看

相关推荐

云从科技：从容大模型支持通过文本和音频生成图像和视频

云从科技：从容大模型支持通过文本和音频生成图像和视频OpenAI的视频生成模型Sora引发关注，云从科技相关负责人表示，云从科技在视觉方面积累较为深厚，目前，从容大模型已实现利用diffusion、GAN等生成式技术围绕人物图像、人物视频数据进行建模，通过文本和音频实现对图像和视频内容进行生成、控制、编辑。应用上，云从科技与天津港、华为等共同开发港口大模型PortGPT，核心是AI智能体天天，通过AI生成交互画面，协同数据分析，提高港口运转效率及安全性。此外，还在文生图像、视频等跨模态领域积极布局，包括发布数字人能力平台，生成AI视频；与中国电信合作AI营销海报生成等。（科创板日报）

OpenAI的Sora视频生成模型也能用来渲染游戏

OpenAI的Sora视频生成模型也能用来渲染视频游戏这篇题为《作为世界模拟器的视频生成模型》（Videogenerationmodelsasworldsimulators）的论文由多位OpenAI研究人员共同撰写，揭开了Sora架构关键方面的神秘面纱--例如，Sora可以生成任意分辨率和长宽比（最高1080p）的视频。根据论文所述，Sora能够执行一系列图像和视频编辑任务，从创建循环视频、向前或向后延伸视频到更改现有视频的背景。但最吸引笔者的还是Sora"模拟数字世界"的能力，OpenAI的合著者如是说。在一次实验中，OpenAI将Sora放到Minecraft上，让它在控制玩家的同时渲染世界及其动态（包括物理）。Sora在Minecraft中控制一名玩家，并渲染视频游戏世界，请注意，颗粒感是由视频到GIF的转换工具造成的，而不是Sora。图片来源：OpenAIOpenAI那么，Sora是如何做到这一点的呢？正如NVIDIA高级研究员JimFan（通过Quartz）所说，与其说Sora是一个创意引擎，不如说它是一个"数据驱动的物理引擎"。它不仅能生成单张照片或视频，还能确定环境中每个物体的物理特性，并根据这些计算结果渲染照片或视频（或交互式3D世界，视情况而定）。合著者写道："这些功能表明，继续扩展视频模型是开发物理和数字世界以及其中的物体、动物和人的高能力模拟器的一条大有可为的途径。"现在，Sora在视频游戏领域也有其通常的局限性。该模型无法准确模拟玻璃碎裂等基本互动的物理过程。即使在可以建模的互动中，Sora也经常出现不一致的情况，例如在渲染一个人吃汉堡时，却无法渲染汉堡上的咬痕。不过，如果我没看错的话，Sora似乎可以为更逼真（甚至可能是逼真）的程序生成游戏铺平道路。这既令人兴奋，又令人恐惧（考虑到Deepfake的影响）--这也许就是为什么OpenAI选择暂时将Sora关在一个非常有限的访问程序后面的原因。相关文章:OpenAI推出文本到视频人工智能模型SoraOpenAI首个视频生成模型发布能生成长达1分钟的高清视频...PC版：https://www.cnbeta.com.tw/articles/soft/1418461.htm手机版：https://m.cnbeta.com.tw/view/1418461.htm

卧槽，Open AI的大招终于来了，发布视频生成模型 Sora，从演示来看生成时长、运动幅度以及稳定性均碾压现在的所有生

卧槽，OpenAI的大招终于来了，发布视频生成模型Sora，从演示来看视频生成时长、运动幅度以及稳定性均碾压现在的所有视频生成模型。Sora能够创作出长达一分钟的视频，不仅保证了视频的视觉质量，还能准确响应用户的指令。将在今天想有限的访问者开放。模型优势：Sora能够创造出包括多个角色、特定动作类型以及对主题和背景的精确细节描述的复杂场景。这款模型不仅能理解用户在指令中提出的需求，还能洞察这些元素在现实世界中是如何存在和表现的。这款模型对语言的理解非常深刻，使其能够精准地识别用户的指令，并创造出表情丰富、情感生动的角色。此外，Sora还能在同一视频内制作多个镜头，同时确保角色的形象和整体的视觉风格保持一致。工作原理：Sora是一种扩散模型(diffusionmodel)，它通过从类似静态噪声的视频出发，逐步去除噪声，从而在多个步骤中生成视频。Sora不仅能一次生成整个视频，还能延长已有视频的长度。我们通过使模型能够预见多个画面帧，解决了确保视频中主题即使暂时离开画面也能保持一致的难题。Sora采用了类似于GPT模型的变压器架构(transformerarchitecture)，这为其带来了优异的扩展性能。在Sora中，视频和图像被表示为一系列小块数据，称为“补丁”(patches)，每个补丁都类似于GPT中的“令牌”(token)。通过统一数据表示方式，我们能够在之前不可能的更广泛视觉数据范围内训练扩散变压器，包括不同的时长、分辨率和长宽比。Sora基于DALL·E和GPT模型的研究成果。它采用了DALL·E3中的重标记技术(recaptioningtechnique)，为视觉训练数据生成详细描述的标题。因此，模型能更准确地遵循用户在生成视频中的文字指令。除了能从文字指令生成视频外，Sora还能将现有静止图像转化为视频，准确地动态展现图像内容并关注细节。此外，它还能扩展现有视频或填补视频中缺失的画面。了解更多：

Sora 详细的技术报告发布了，相关从业者可能都需要看看。

Sora详细的技术报告发布了，相关从业者可能都需要看看。里面有OpenAI的训练思路以及Sora详细的技术特性，我从里面找了一些要点，详细的可以去看完整内容。简单来说Sora的训练量足够大也产生了类似涌现的能力。技术特点：三维空间的连贯性：Sora可以生成带有动态相机运动的视频。随着相机移动和旋转，人物和场景元素在三维空间中保持连贯的运动。模拟数字世界：Sora还能模拟人工过程，如视频游戏。Sora能够同时控制Minecraft中的玩家，并高保真地渲染游戏世界及其动态。通过提及“Minecraft”的提示，可以零样本地激发Sora的这些能力长期连续性和物体持久性：对视频生成系统来说，Sora通常能够有效地模拟短期和长期的依赖关系。同样，它能在一个样本中生成同一角色的多个镜头，确保其在整个视频中的外观一致。与世界互动：Sora有时能够模拟对世界状态产生简单影响的行为。例如，画家可以在画布上留下随时间持续的新笔触，或者一个人吃汉堡时留下咬痕。训练过程：Sora的训练受到了大语言模型（LargeLanguageModel）的启发。这些模型通过在互联网规模的数据上进行训练，从而获得了广泛的能力。Sora实际上是一种扩散型变换器模型（diffusiontransformer）。首先将视频压缩到一个低维潜在空间中，然后将这种表现形式分解成时空区块，从而将视频转换为区块。训练了一个用于降低视觉数据维度的网络。这个网络以原始视频为输入，输出在时间和空间上都被压缩的潜在表示。Sora在这个压缩的潜在空间上进行训练，并在此空间中生成视频。还开发了一个对应的解码器模型，它能将生成的潜在表示映射回到像素空间。对于给定的压缩输入视频，提取一系列时空区块，它们在变换器模型中充当标记（token）。这种方案同样适用于图像，因为图像本质上是单帧的视频。基于区块的表示方法使Sora能够针对不同分辨率、持续时间和纵横比的视频和图像进行训练。在推理过程中，可以通过在适当大小的网格中排列随机初始化的区块来控制生成视频的大小。随着Sora训练计算量的增加，样本质量有了显著提升。Sora训练时没有对素材进行裁切，使得Sora能够直接为不同设备以其原生纵横比创造内容。针对视频的原生纵横比进行训练，还可以提高构图和取景的质量。

Sora 详细的技术报告发布了，相关从业者可能都需要看看。#ai视频#

OpenAI 推出文本到视频人工智能模型 Sora

OpenAI推出文本到视频人工智能模型Sora根据OpenAI的介绍博文，Sora能够创建"具有多个角色、特定运动类型以及主体和背景准确细节的复杂场景"。该公司还指出，该模型能够理解物体"在物理世界中的存在方式"，还能"准确解释道具并生成表达生动情感的引人注目的角色"。该模型还能根据静态图像生成视频，以及在现有视频中填充缺失的帧或扩展视频。OpenAI的博文中包含的Sora生成的演示包括淘金热时期加利福尼亚州的空中场景、从东京火车内部拍摄的视频等。许多演示都有人工智能的痕迹--比如在一段博物馆的视频中，地板疑似在移动。OpenAI表示，该模型"可能难以准确模拟复杂场景的物理现象"，但总体而言，演示结果令人印象深刻。几年前，像Midjourney这样的文本到图像生成器在模型将文字转化为图像的能力方面处于领先地位。但最近，视频技术开始飞速进步：Runway和Pika等公司都展示了自己令人印象深刻的文字转视频模型，而Google的Lumiere也将成为OpenAI在这一领域的主要竞争对手之一。与Sora类似，Lumiere也为用户提供了文字转换视频的工具，还能让用户通过静态图像创建视频。Sora目前只对"红队"人员开放，他们负责评估模型的潜在危害和风险。OpenAI还向一些视觉艺术家、设计师和电影制片人提供访问权限，以获得反馈意见。它指出，现有模型可能无法准确模拟复杂场景的物理现象，也可能无法正确解释某些因果关系。本月早些时候，OpenAI宣布将在其文本到图像工具DALL-E3中添加水印，但指出这些水印"很容易去除"。与其他人工智能产品一样，OpenAI将不得不面对人工智能逼真视频被误认为是真实视频的后果。...PC版：https://www.cnbeta.com.tw/articles/soft/1418385.htm手机版：https://m.cnbeta.com.tw/view/1418385.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人