作为 2024 开年王炸，Sora 的出现树立了一个全新的追赶目标，每个文生视频的研究者都想在最短的时间内复现 Sora 的效果

作为 2024 开年王炸，Sora 的出现树立了一个全新的追赶目标，每个文生视频的研究者都想在最短的时间内复现 Sora 的效果。最近，新加坡国立大学尤洋团队开源的一个名为 OpenDiT 的项目为训练和部署 DiT 模型打开了新思路。 OpenDiT 是一个易于使用、快速且内存高效的系统，专门用于提高 DiT 应用程序的训练和推理效率，包括文本到视频生成和文本到图像生成。 |

在Telegram中查看

相关推荐

全球首个类Sora开源复现方案来了全面公开所有训练细节和模型权重

全球首个类Sora开源复现方案来了全面公开所有训练细节和模型权重还能用航拍视角，展现悬崖海岸边，海水拍打着岩石的画面。亦或是延时摄影下的浩瀚星空。自Sora发布以来，由于效果惊艳但技术细节寥寥，揭秘、复现Sora成为了开发社区最热议话题之一。比如Colossal-AI团队推出成本直降46%的Sora训练推理复现流程。短短两周时间后，该团队再次发布最新进展，复现类Sora方案，并将技术方案及详细上手教程在GitHub上免费开源。那么问题来了，复现Sora如何实现？Open-Sora 开源地址： Transformer (DiT) 。它以采用DiT架构的高质量开源文生图模型PixArt-α为基座，在此基础上引入时间注意力层，将其扩展到视频数据上。具体来看，整个架构包括一个预训练好的VAE，一个文本编码器和一个利用空间-时间注意力机制的STDiT (Spatial Temporal Diffusion Transformer)模型。其中，STDiT 每层的结构如下图所示。它采用串行的方式在二维的空间注意力模块上叠加一维的时间注意力模块，用于建模时序关系。在时间注意力模块之后，交叉注意力模块用于对齐文本的语意。与全注意力机制相比，这样的结构大大降低了训练和推理开销。与同样使用空间-时间注意力机制的 Latte模型相比，STDiT 可以更好的利用已经预训练好的图像 DiT 的权重，从而在视频数据上继续训练。STDiT结构示意图整个模型的训练和推理流程如下。据了解，在训练阶段首先采用预训练好的Variational Autoencoder (VAE)的编码器将视频数据进行压缩，然后在压缩之后的潜在空间中与文本嵌入(text embedding)一起训练STDiT扩散模型。在推理阶段，从VAE的潜在空间中随机采样出一个高斯噪声，与提示词嵌入(prompt embedding)一起输入到STDiT中，得到去噪之后的特征，最后输入到VAE的解码器，解码得到视频。模型训练流程训练复现方案在训练复现部分，Open-Sora参考了Stable Video Diffusion (SVD)。一共分为3个阶段：大规模图像预训练；大规模视频预训练；高质量视频数据微调。每个阶段都会基于前一个阶段的权重继续训练。相比于从零开始单阶段训练，多阶段训练通过逐步扩展数据，更高效地达成高质量视频生成的目标。训练方案三阶段第一阶段是大规模图像预训练。团队利用互联网上丰富的图像数据和文生图技术，先训练出一个高质量的文生图模型，将该模型作为下一阶段视频预训练的初始化权重。同时，由于目前没有高质量的时空VAE，他们采用Stable Diffusion预训练好的图像VAE。这样不仅能保障初始模型的优越性能，还能显著降低视频预训练的整体成本。第二阶段是大规模视频预训练。这一阶段主要增加模型的泛化能力，有效掌握视频的时间序列关联。它需要使用大量视频数据训练，并且保障视频素材的多样性。同时，第二阶段的模型在第一阶段文生图模型的基础上加入了时序注意力模块，用于学习视频中的时序关系。其余模块与第一阶段保持一致，并加载第一阶段权重作为初始化，同时初始化时序注意力模块输出为零，以达到更高效更快速的收敛。Colossal-AI团队使用了PixArt-alpha的开源权重作为第二阶段STDiT模型的初始化，以及采用了T5模型作为文本编码器。他们采用了256x256的小分辨率进行预训练，进一步增加了收敛速度，降低训练成本。Open-Sora生成效果（提示词：水中世界的镜头，镜头中一只海龟在珊瑚礁间悠然游弋）第三阶段是高质量视频数据微调。据介绍，这一阶段能显著提升模型的生成质量。使用的数据规模比上一阶段降低一个量级，但是视频的时长、分辨率和质量都更高。通过这种方式进行微调，能实现视频生成从短到长、从低分辨率到高分辨率、从低保真度到高保真度的高效扩展。值得一提的是，Colossal-AI还详细透露了每阶段的资源使用情况。在Open-Sora的复现流程中，他们使用了64块H800进行训练。第二阶段的训练量一共是 2808 GPU hours，约合7000美元，第三阶段的训练量是1920 GPU hours，大约4500美元。经过初步估算，整个训练方案成功把Open-Sora复现流程控制在了1万美元左右。数据预处理为了进一步降低Sora复现的门槛和复杂度，Colossal-AI团队在代码仓库中还提供了便捷的视频数据预处理脚本，让大家可以轻松启动Sora复现预训练。包括公开视频数据集下载、长视频根据镜头连续性分割为短视频片段、使用开源大语言模型LLaVA生成精细的提示词。他们提供的批量视频标题生成代码可以用两卡 3 秒标注一个视频，并且质量接近于 GPT-4V。最终得到的视频/文本对可直接用于训练。借助他们在GitHub上提供的开源代码，可以轻松地在自己的数据集上快速生成训练所需的视频/文本对，显著降低了启动Sora复现项目的技术门槛和前期准备。高效训练加持除此之外，Colossal-AI团队还提供了训练加速方案。通过算子优化和混合并行等高效训练策略，在处理64帧、512x512分辨率视频的训练中，实现了1.55倍的加速效果。同时，得益于Colossal-AI的异构内存管理系统，在单台服务器上（8H800）可以无阻碍地进行1分钟的1080p高清视频训练任务。而且团队还发现STDiT模型架构在训练时也展现出卓越的高效性。和采用全注意力机制的DiT相比，随着帧数的增加，STDiT实现了高达5倍的加速效果，这在处理长视频序列等现实任务中尤为关键。最后，团队还放出了更多Open-Sora的生成效果。团队和量子位透露，他们将长期更新优化Open-Sora的相关解决方案和动态。未来将使用更多视频训练数据，以生成更高质量、更长时长的视频内容，并支持多分辨率特性。实际应用方面，团队透露将推进在电影、游戏、广告等领域落地。感兴趣的开发者们，可访问GitHub项目了解更多~Open-Sora 开源地址： Scalable Diffusion Models with Transformers[2] PixArt-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis[3] Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets[4] Latte: Latent Diffusion Transformer for Video Generation[5] ... PC版：手机版：

OpenDiT 一个专门用来加速类似Sora的DiT架构模型推理和训练的项目，GPU 加速高达 80%，内存减少 50%。

OpenDiT 一个专门用来加速类似Sora的DiT架构模型推理和训练的项目，GPU 加速高达 80%，内存减少 50%。主要特点有： GPU 加速高达 80%，内存减少 50%，内核优化包括FlashAttention、Fused AdaLN、Fused Layernorm内核。 FastSeq：一种新颖的序列并行方法，专为激活大小较大但参数大小较小的类似 DiT 的工作负载而设计。使用方便，通过一些生产线更改即可获得巨大的性能提升，用户不需要了解分布式训练的实现。支持文本到图像和文本到视频生成的完整流程。项目地址：

北大发起复现Sora：框架已搭袁粒、田永鸿领衔 AnimateDiff大神响应

北大发起复现Sora：框架已搭袁粒、田永鸿领衔 AnimateDiff大神响应为什么发起这项计划？因为资源有限，团队希望集结开源社区的力量，尽可能完成复现。消息一出，就有人北大校友兼AnimateDiff贡献者等人即刻响应：还有人表示可以提供高质量数据集：所以，“国产版Sora”的新挑战者，就这么来了？计划细节，已完成3个初步功能首先，来看目前公布的技术细节即团队打算如何复现Sora。整体框架上，它将由三部分组成：Video VQ-VAEDenoising Diffusion Transformer（去噪扩散型Transformer）Condition Encoder（条件编码器）这和Sora技术报告的内容基本差不多。对于Sora视频的可变长宽比，团队通过参考上海AI Lab刚刚提出的FiT（Flexible Vision Transformer for Diffusion Model，即“升级版DiT”）实施一种动态掩码策略，从而在并行批量训练的同时保持灵活的长宽比。具体来说, 我们将高分辨率视频在保持长宽比的同时下采样至最长边为256像素, 然后在右侧和底部用零填充至一致的256x256分辨率。这样便于videovae以批量编码视频, 以及便于扩散模型使用注意力掩码对批量潜变量进行去噪。对于可变分辨率，团队则表示在推理过程中，尽管在固定的256x256分辨率上进行训练,，但使用位置插值来实现可变分辨率采样。具体而言：我们将可变分辨率噪声潜变量的位置索引从[0, seq_length-1]下调到[0, 255]，以使其与预训练范围对齐。这种调整使得基于注意力的扩散模型能够处理更高分辨率的序列。对于可变时长，则使用VideoGPT中的Video VQ-VAE,，将视频压缩至潜在空间，支持这一功能。同时，还要在扩展空间位置插值至时空维度，实现对可变时长视频的处理。在此，主页也先给了两个demo，分别是10s视频重建和18s重建，分辨率分别为256x256和196x196：这三个功能都已经初步实现。相关的训练代码也已经在对应的仓库上上线：成员介绍，目前的训练是在8个A100-80G上进行的（明显还远远不够），输入大小为8帧 128 128，大概需要1周时间才能生成类似ucf（一个视频数据集）的效果。而从目前已经列出的9项to do事项来看，除了可变长宽比、可变分辨率和可变时长，动态掩码输入、在embeddings上添加类条件这两个任务也已完成。未来要做的包括：采样脚本添加位置插值在更高分辨率上微调Video-VQVAE合并SiT纳入更多条件以及最重要的：使用更多数据和更多GPU进行训练袁粒、田永鸿领衔严格来说，Open Sora计划是北大-兔展AIGC联合实验室联合发起的。领衔者之一袁粒，为北大信息工程学院助理教授、博导，去年获得福布斯30岁以下亚洲杰出人物榜单。他分别在中国科学技术大学和新加坡国立大学获得本科和博士学位。研究方向为深度视觉神经网络设计和多模态机器学习，代表性一作论文之一T2T-ViT被引次数1000+。领衔者之二田永鸿，北京大学博雅特聘教授，博士生导师，IEEE、ACM等fellow，兼任鹏城实验室（深圳）人工智能研究中心副主任，曾任中科院计算所助理研究员、美国明尼苏达大学访问教授。从目前公布的团队名单来看，其余成员大部分为硕士生。包括袁粒课题组的林彬，他曾多次以一作或共同一作身份参与了“北大版多模态MoE模型”MoE-LLaVA、Video-LLaVA和多模态对齐框架LanguageBind（入选ICLR 2024）等工作。兔展这边，参与者包括兔展智能创始人、董事长兼CEO董少灵（他也是北大校友）。完整名单：谁能率先发布中文版Sora？相比ChatGPT，引爆文生视频赛道的Sora研发难度显然更大。谁能夺得Sora中文版的首发权，目前留给公众的是一个大大的问号。在这之中，传闻最大的是字节。今年2月初，张楠辞去抖音集团CEO一职，转而负责剪映，就引发了外界猜测。很快，一款叫做“Boximator”的视频生成模型浮出水面。它基于PixelDance和ModelScope两个之前的成果上完成训练。不过，很快字节就辟谣这不是“字节版sora”：它的效果离Sora还有很大差距，暂时不具备落地条件，并且至少还需2-3个月才能上线demo给大家测试。但，风声并未就此平息。去年11月，字节剪映悄悄上线了一个AI绘画工具“Dreamina”，大家的评价还不错。现在，又有消息称：Dreamina即将上线类似sora的视频生成功能（目前在内测）。不知道，这一次是不是字节亮出的大招呢？Open Sora项目主页： ... PC版：手机版：

北京大学Yuangroup团队发起了一个 Open-Sora计划，旨在复现OpenAI 的Sora模型。

北京大学Yuangroup团队发起了一个 Open-Sora计划，旨在复现OpenAI 的Sora模型。通过视频VQ-VAE、Denoising Diffusion Transformer和条件编码器等技术组件，来实现Sora模型的功能。它由以下组成部分组成。 1. Video VQ-VAE. 2. Denoising Diffusion Transformer. 3. Condition Encoder.

可扩展性是DiT论文的核心主题。首先，经过优化的DiT在每Flop的实际运行时间上比UNet要快得多。更重要的是，Sora证明了

可扩展性是DiT论文的核心主题。首先，经过优化的DiT在每Flop的实际运行时间上比UNet要快得多。更重要的是，Sora证明了DiT的扩展法则不仅适用于图像，现在也适用于视频Sora复制了在DiT中观察到的视觉扩展行为。猜测：在Sora报告中，第一个视频的质量相当差，我怀疑它使用的是基础模型尺寸。粗略计算一下：DiT XL/2的GFLOPs是B/2模型的5倍，所以最终16倍计算模型可能是3倍DiT-XL模型的大小，这意味着Sora可能有约3亿参数如果这是真的，这并非一个不合理的模型大小。这可能意味着，训练Sora模型可能不需要像人们预期的那样多的GPU我预计未来的迭代速度会非常快。关键的收获来自于“新兴模拟能力”部分。在Sora出现之前，人们不清楚是否可以自然形成长篇连贯性，或者是否需要复杂的以主题为导向的生成流程，甚至物理模拟器。OpenAI已经证明，尽管不完美，但这些行为可以通过端到端训练来实现。然而，有两个关键点尚未被讨论。 1. 训练数据：关于训练数据的来源和构建完全没有提及，这可能意味着数据很可能是Sora成功的关键因素。猜测：关于来自游戏引擎的数据已有许多猜测。我也预计可能会包括电影、纪录片、电影长镜头等。质量非常重要。我非常好奇Sora从哪里获取这些数据的（肯定不仅仅是YouTube，对吧？）。 2.（自回归的）长视频生成：Sora的一大突破是能够生成非常长的视频。制作2秒视频和1分钟视频之间的差异是巨大的。在Sora中，这可能是通过联合帧预测实现的，允许自回归采样，但一个主要的挑战是如何解决错误累积，并在时间上保持质量和一致性。是需要一个非常长的（并且是双向的）上下文来进行条件化？还是说仅仅通过扩大规模就可以减少问题？这些技术细节可能非常重要，希望未来能够被逐渐揭示。扩散变换器（DiT）在Sora中的应用效果非常出色。我们纽约大学的团队最近发布了一款新的DiT模型，名为SiT。它保持了与DiT完全相同的架构，但在性能上有所提升，收敛速度更快。我对它在视频生成方面的表现也非常感兴趣！ DiT论文地址：

这是构成Sora基础之一的Diffusion Transformer论文作者关于Sora的一些猜测和技术解释。

这是构成Sora基础之一的Diffusion Transformer论文作者关于Sora的一些猜测和技术解释。这个老哥可能是除了这篇论文的另一个作者（现在在Open AI工作）之外最懂Diffusion Transformer的人了，非常值得关注。有趣的是这篇论文曾经在2023年的计算机视觉会议(CVR2023)上因“缺少创新性”而遭到拒绝，短短一年时间就变成了Sora这怪物模型的理论基础。 -正文开始- 以下是我对Sora技术报告的解读，其中包含了一些可能并不准确的猜测。首先，我非常感谢团队分享了极为有价值的见解和设计决策Sora确实令人惊叹，它将彻底改变视频生成领域。我们目前所了解到的情况如下：架构：Sora基于我们的扩散变换器（Diffusion Transformer，简称DiT）模型构建，该模型已发表在2023年国际计算机视觉会议（ICCV 2023）上。简单来说，它是一个结合了变换器（Transformer）主干的扩散模型： DiT = [变分自编码器（VAE）编码器 + 视觉变换器（ViT）+ 去噪扩散概率模型（DDPM）+ VAE解码器]。根据报告，这个模型似乎没有太多额外的复杂设计。 “视频压缩网络”：这看起来就像是一个在原始视频数据上训练的变分自编码器（VAE）。在实现良好的时间一致性方面，标记化（Tokenization）可能扮演着关键角色。顺便提一下，VAE本质上是一个卷积网络，所以从技术上说，DiT实际上是一个混合模型。 ;) 当Bill和我参与DiT项目时，我们并未专注于创新（详见我之前的推特），而是将重点放在了两个方面：简洁性和可扩展性。这些优先事项带来的不仅仅是概念上的优势。简洁性代表着灵活性。关于标准的视觉变换器（ViT），人们常忽视的一个亮点是，它让模型在处理输入数据时变得更加灵活。例如，在遮蔽自编码器（MAE）中，ViT帮助我们只处理可见的区块，忽略被遮蔽的部分。同样，Sora可以通过在适当大小的网格中排列随机初始化的区块来控制生成视频的尺寸。而UNet并不直接提供这种灵活性。猜测：Sora可能还使用了Google的Patch n’ Pack（NaViT）技术，使DiT能够适应不同的分辨率、持续时间和长宽比。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人