可扩展性是DiT论文的核心主题。首先，经过优化的DiT在每Flop的实际运行时间上比UNet要快得多。更重要的是，Sora证明了

可扩展性是DiT论文的核心主题。首先，经过优化的DiT在每Flop的实际运行时间上比UNet要快得多。更重要的是，Sora证明了DiT的扩展法则不仅适用于图像，现在也适用于视频——Sora复制了在DiT中观察到的视觉扩展行为。猜测：在Sora报告中，第一个视频的质量相当差，我怀疑它使用的是基础模型尺寸。粗略计算一下：DiTXL/2的GFLOPs是B/2模型的5倍，所以最终16倍计算模型可能是3倍DiT-XL模型的大小，这意味着Sora可能有约3亿参数——如果这是真的，这并非一个不合理的模型大小。这可能意味着，训练Sora模型可能不需要像人们预期的那样多的GPU——我预计未来的迭代速度会非常快。关键的收获来自于“新兴模拟能力”部分。在Sora出现之前，人们不清楚是否可以自然形成长篇连贯性，或者是否需要复杂的以主题为导向的生成流程，甚至物理模拟器。OpenAI已经证明，尽管不完美，但这些行为可以通过端到端训练来实现。然而，有两个关键点尚未被讨论。1.训练数据：关于训练数据的来源和构建完全没有提及，这可能意味着数据很可能是Sora成功的关键因素。猜测：关于来自游戏引擎的数据已有许多猜测。我也预计可能会包括电影、纪录片、电影长镜头等。质量非常重要。我非常好奇Sora从哪里获取这些数据的（肯定不仅仅是YouTube，对吧？）。2.（自回归的）长视频生成：Sora的一大突破是能够生成非常长的视频。制作2秒视频和1分钟视频之间的差异是巨大的。在Sora中，这可能是通过联合帧预测实现的，允许自回归采样，但一个主要的挑战是如何解决错误累积，并在时间上保持质量和一致性。是需要一个非常长的（并且是双向的）上下文来进行条件化？还是说仅仅通过扩大规模就可以减少问题？这些技术细节可能非常重要，希望未来能够被逐渐揭示。扩散变换器（DiT）在Sora中的应用效果非常出色。我们纽约大学的团队最近发布了一款新的DiT模型，名为SiT。它保持了与DiT完全相同的架构，但在性能上有所提升，收敛速度更快。我对它在视频生成方面的表现也非常感兴趣！DiT论文地址：

在Telegram中查看

相关推荐

腾讯混元文生图模型开源采用Sora同架构

腾讯混元文生图模型开源采用Sora同架构5月14日，腾讯宣布旗下混元文生图模型升级并开源，参数量15亿，目前已在平台及上发布，包含模型权重、推理代码、模型算法等完整模型，企业与个人开发者可免费商用。该模型支持文生图功能且可作为视频等多模态视觉生成的基础。随着腾讯混元文生图大模型入局，采用DiT架构的大模型玩家再增一名。OpenAI的视频生成模型Sora也采用DiT架构。腾讯方面介绍，混元文生图大模型是业内首个中文原生的DiT架构文生图模型，综合指标在文生图算法中排名第三。——

这是构成Sora基础之一的Diffusion Transformer论文作者关于Sora的一些猜测和技术解释。#ai视频#Sor

这是构成Sora基础之一的DiffusionTransformer论文作者关于Sora的一些猜测和技术解释。这个老哥可能是除了这篇论文的另一个作者（现在在OpenAI工作）之外最懂DiffusionTransformer的人了，非常值得关注。有趣的是这篇论文曾经在2023年的计算机视觉会议(CVR2023)上因“缺少创新性”而遭到拒绝，短短一年时间就变成了Sora这怪物模型的理论基础。-------------正文开始-------------以下是我对Sora技术报告的解读，其中包含了一些可能并不准确的猜测。首先，我非常感谢团队分享了极为有价值的见解和设计决策——Sora确实令人惊叹，它将彻底改变视频生成领域。我们目前所了解到的情况如下：架构：Sora基于我们的扩散变换器（DiffusionTransformer，简称DiT）模型构建，该模型已发表在2023年国际计算机视觉会议（ICCV2023）上。简单来说，它是一个结合了变换器（Transformer）主干的扩散模型：DiT=[变分自编码器（VAE）编码器+视觉变换器（ViT）+去噪扩散概率模型（DDPM）+VAE解码器]。根据报告，这个模型似乎没有太多额外的复杂设计。“视频压缩网络”：这看起来就像是一个在原始视频数据上训练的变分自编码器（VAE）。在实现良好的时间一致性方面，标记化（Tokenization）可能扮演着关键角色。顺便提一下，VAE本质上是一个卷积网络，所以从技术上说，DiT实际上是一个混合模型。;)当Bill和我参与DiT项目时，我们并未专注于创新（详见我之前的推特），而是将重点放在了两个方面：简洁性和可扩展性。这些优先事项带来的不仅仅是概念上的优势。简洁性代表着灵活性。关于标准的视觉变换器（ViT），人们常忽视的一个亮点是，它让模型在处理输入数据时变得更加灵活。例如，在遮蔽自编码器（MAE）中，ViT帮助我们只处理可见的区块，忽略被遮蔽的部分。同样，Sora可以通过在适当大小的网格中排列随机初始化的区块来控制生成视频的尺寸。而UNet并不直接提供这种灵活性。猜测：Sora可能还使用了Google的Patchn’Pack（NaViT）技术，使DiT能够适应不同的分辨率、持续时间和长宽比。

OpenDiT 一个专门用来加速类似Sora的DiT架构模型推理和训练的项目，GPU 加速高达 80%，内存减少 50%。#ai

OpenDiT一个专门用来加速类似Sora的DiT架构模型推理和训练的项目，GPU加速高达80%，内存减少50%。主要特点有：GPU加速高达80%，内存减少50%，内核优化包括FlashAttention、FusedAdaLN、FusedLayernorm内核。FastSeq：一种新颖的序列并行方法，专为激活大小较大但参数大小较小的类似DiT的工作负载而设计。使用方便，通过一些生产线更改即可获得巨大的性能提升，用户不需要了解分布式训练的实现。支持文本到图像和文本到视频生成的完整流程。项目地址：

上午看 Sora 的几点收获：

上午看Sora的几点收获：Sora完全站在了Openai成功产品的肩膀上。chatGPT背后是个大语言模型，把一个句子拆成若干个token，可能是一个单词、一个词组、一个短句，通过海量数据训练，推测下一个最大概率的token（生成文字）。Sora模型，同样是把海量视频拆成一个个分块，配合GPT强大的语言能力，给视频分块增加和扩充文字描述。当海量的训练视频都用这种分块统一拆分学习后，用户输入新指令，就可以从不同的分块里预测和生成新的视频分块，再变成一整条视频。即：用语言模型把用户指令扩写和改写输入视频模型生成新视频这相当于人类给了一个作文题，语言模型写一篇描写场景的小作文，Sora再根据这篇作文生成视频，所以细节会比其他AI视频产品强太多。新世界降临前夕，我们普通人可以做什么？快刀青衣老师的观点：不管是文生视频、文生图，技术底层关注的是「生」，而我们普通人需要关注的是「文」。表达有短板、想象力不够，出来的图和视频是没有意境的。有文化的你输入“大漠孤烟直，长河落日圆”，没文化的我输入“沙漠上空挂着一个圆太阳”，出来的效果就是卖家秀和买家秀的区别。保持阅读、在阅读的时候记录下具有画面感的段落、收集经典电影的精彩镜头……在技术逐渐平权的时代当下，期待我们每个人都能有“超能力”。

卧槽，Open AI的大招终于来了，发布视频生成模型 Sora，从演示来看生成时长、运动幅度以及稳定性均碾压现在的所有生

卧槽，OpenAI的大招终于来了，发布视频生成模型Sora，从演示来看视频生成时长、运动幅度以及稳定性均碾压现在的所有视频生成模型。Sora能够创作出长达一分钟的视频，不仅保证了视频的视觉质量，还能准确响应用户的指令。将在今天想有限的访问者开放。模型优势：Sora能够创造出包括多个角色、特定动作类型以及对主题和背景的精确细节描述的复杂场景。这款模型不仅能理解用户在指令中提出的需求，还能洞察这些元素在现实世界中是如何存在和表现的。这款模型对语言的理解非常深刻，使其能够精准地识别用户的指令，并创造出表情丰富、情感生动的角色。此外，Sora还能在同一视频内制作多个镜头，同时确保角色的形象和整体的视觉风格保持一致。工作原理：Sora是一种扩散模型(diffusionmodel)，它通过从类似静态噪声的视频出发，逐步去除噪声，从而在多个步骤中生成视频。Sora不仅能一次生成整个视频，还能延长已有视频的长度。我们通过使模型能够预见多个画面帧，解决了确保视频中主题即使暂时离开画面也能保持一致的难题。Sora采用了类似于GPT模型的变压器架构(transformerarchitecture)，这为其带来了优异的扩展性能。在Sora中，视频和图像被表示为一系列小块数据，称为“补丁”(patches)，每个补丁都类似于GPT中的“令牌”(token)。通过统一数据表示方式，我们能够在之前不可能的更广泛视觉数据范围内训练扩散变压器，包括不同的时长、分辨率和长宽比。Sora基于DALL·E和GPT模型的研究成果。它采用了DALL·E3中的重标记技术(recaptioningtechnique)，为视觉训练数据生成详细描述的标题。因此，模型能更准确地遵循用户在生成视频中的文字指令。除了能从文字指令生成视频外，Sora还能将现有静止图像转化为视频，准确地动态展现图像内容并关注细节。此外，它还能扩展现有视频或填补视频中缺失的画面。了解更多：

国泰君安：Sora 拉大算力缺口关注国产算力机遇

国泰君安：Sora拉大算力缺口关注国产算力机遇国泰君安研报表示，Sora大模型的发布将进一步拉大算力缺口。Sora大模型延续了此前GPT模型“源数据-Transformer-Diffusion-涌现”的技术路径，这意味着其发展成熟同样需要海量数据+大规模参数+大算力作为基座，且由于视频训练所需数据量远大于文本训练的数据量，预计Sora大模型将进一步拉大算力缺口。Sora出色的生成式能力或将引发国内文生视频AI大模型热潮，预计国内大模型厂商也将快速跟进，从而带动算力需求增加。在算力缺口逐渐拉大的背景下，国产算力公司有望实现超预期发展。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人