可扩展性是DiT论文的核心主题。首先，经过优化的DiT在每Flop的实际运行时间上比UNet要快得多。更重要的是，Sora证明了

可扩展性是DiT论文的核心主题。首先，经过优化的DiT在每Flop的实际运行时间上比UNet要快得多。更重要的是，Sora证明了DiT的扩展法则不仅适用于图像，现在也适用于视频Sora复制了在DiT中观察到的视觉扩展行为。猜测：在Sora报告中，第一个视频的质量相当差，我怀疑它使用的是基础模型尺寸。粗略计算一下：DiT XL/2的GFLOPs是B/2模型的5倍，所以最终16倍计算模型可能是3倍DiT-XL模型的大小，这意味着Sora可能有约3亿参数如果这是真的，这并非一个不合理的模型大小。这可能意味着，训练Sora模型可能不需要像人们预期的那样多的GPU我预计未来的迭代速度会非常快。关键的收获来自于“新兴模拟能力”部分。在Sora出现之前，人们不清楚是否可以自然形成长篇连贯性，或者是否需要复杂的以主题为导向的生成流程，甚至物理模拟器。OpenAI已经证明，尽管不完美，但这些行为可以通过端到端训练来实现。然而，有两个关键点尚未被讨论。 1. 训练数据：关于训练数据的来源和构建完全没有提及，这可能意味着数据很可能是Sora成功的关键因素。猜测：关于来自游戏引擎的数据已有许多猜测。我也预计可能会包括电影、纪录片、电影长镜头等。质量非常重要。我非常好奇Sora从哪里获取这些数据的（肯定不仅仅是YouTube，对吧？）。 2.（自回归的）长视频生成：Sora的一大突破是能够生成非常长的视频。制作2秒视频和1分钟视频之间的差异是巨大的。在Sora中，这可能是通过联合帧预测实现的，允许自回归采样，但一个主要的挑战是如何解决错误累积，并在时间上保持质量和一致性。是需要一个非常长的（并且是双向的）上下文来进行条件化？还是说仅仅通过扩大规模就可以减少问题？这些技术细节可能非常重要，希望未来能够被逐渐揭示。扩散变换器（DiT）在Sora中的应用效果非常出色。我们纽约大学的团队最近发布了一款新的DiT模型，名为SiT。它保持了与DiT完全相同的架构，但在性能上有所提升，收敛速度更快。我对它在视频生成方面的表现也非常感兴趣！ DiT论文地址：

在Telegram中查看

相关推荐

这是构成Sora基础之一的Diffusion Transformer论文作者关于Sora的一些猜测和技术解释。

这是构成Sora基础之一的Diffusion Transformer论文作者关于Sora的一些猜测和技术解释。这个老哥可能是除了这篇论文的另一个作者（现在在Open AI工作）之外最懂Diffusion Transformer的人了，非常值得关注。有趣的是这篇论文曾经在2023年的计算机视觉会议(CVR2023)上因“缺少创新性”而遭到拒绝，短短一年时间就变成了Sora这怪物模型的理论基础。 -正文开始- 以下是我对Sora技术报告的解读，其中包含了一些可能并不准确的猜测。首先，我非常感谢团队分享了极为有价值的见解和设计决策Sora确实令人惊叹，它将彻底改变视频生成领域。我们目前所了解到的情况如下：架构：Sora基于我们的扩散变换器（Diffusion Transformer，简称DiT）模型构建，该模型已发表在2023年国际计算机视觉会议（ICCV 2023）上。简单来说，它是一个结合了变换器（Transformer）主干的扩散模型： DiT = [变分自编码器（VAE）编码器 + 视觉变换器（ViT）+ 去噪扩散概率模型（DDPM）+ VAE解码器]。根据报告，这个模型似乎没有太多额外的复杂设计。 “视频压缩网络”：这看起来就像是一个在原始视频数据上训练的变分自编码器（VAE）。在实现良好的时间一致性方面，标记化（Tokenization）可能扮演着关键角色。顺便提一下，VAE本质上是一个卷积网络，所以从技术上说，DiT实际上是一个混合模型。 ;) 当Bill和我参与DiT项目时，我们并未专注于创新（详见我之前的推特），而是将重点放在了两个方面：简洁性和可扩展性。这些优先事项带来的不仅仅是概念上的优势。简洁性代表着灵活性。关于标准的视觉变换器（ViT），人们常忽视的一个亮点是，它让模型在处理输入数据时变得更加灵活。例如，在遮蔽自编码器（MAE）中，ViT帮助我们只处理可见的区块，忽略被遮蔽的部分。同样，Sora可以通过在适当大小的网格中排列随机初始化的区块来控制生成视频的尺寸。而UNet并不直接提供这种灵活性。猜测：Sora可能还使用了Google的Patch n’ Pack（NaViT）技术，使DiT能够适应不同的分辨率、持续时间和长宽比。

[整理] Kwebbelkop对 Open AI 只在 TikTok 发布 Sora 的新视频的猜测有点意思。

[整理] Kwebbelkop对 Open AI 只在 TikTok 发布 Sora 的新视频的猜测有点意思。 OpenAI将收集用户发布的的 Sora 视频的数据来进行模型微调，从而获得更强的 Sora 模型，后期Open AI 可能会推出100% AI 生成内容的 TikTok平台。其他人发布的视频数据 Open AI 应该是无法获取的，字节也不 ...

腾讯混元文生图模型开源采用Sora同架构

腾讯混元文生图模型开源采用Sora同架构 5月14日，腾讯宣布旗下混元文生图模型升级并开源，参数量15亿，目前已在平台及上发布，包含模型权重、推理代码、模型算法等完整模型，企业与个人开发者可免费商用。该模型支持文生图功能且可作为视频等多模态视觉生成的基础。随着腾讯混元文生图大模型入局，采用 DiT 架构的大模型玩家再增一名。OpenAI 的视频生成模型 Sora 也采用 DiT 架构。腾讯方面介绍，混元文生图大模型是业内首个中文原生的 DiT 架构文生图模型，综合指标在文生图算法中排名第三。

对sora比较深入的分析

对sora比较深入的分析从电影和游戏行业的视角出发。指出了Sora在模拟物理现象和创意内容生成方面的局限性，也强调了其在多模态学习和生成能力上的潜力。以下是意见的总结： Sora的局限性： Sora虽然能够模拟物理现象，但其物理理解仍然脆弱，无法完全替代专业的物理引擎。在物体交互和物理规则的理解上存在不足，可能导致超现实的结果。 Sora的生成内容依赖于大量数据的压缩和提炼，而非完全的物理模拟。 Sora的创新与潜力：通过将视频内容压缩到隐空间，Sora有效地解决了处理高分辨率视频所需的计算资源问题。其技术可能影响实时影像资料的处理和分析，如直播和监控视频数据。 Sora的应用可能为AI模型训练提供新路径，特别是在多模态数据和复杂现实世界情境的理解方面。对未来的展望： Sora技术的发展可能需要在提升算力和优化算法效率之间找到平衡。尽管Sora不会取代游戏引擎开发者或影视特效师，但它可以作为创意预览阶段的工具，帮助普通人进行民主化创作。 Sora的多模态能力可能通过3D引擎模型进一步发展，为虚拟世界的构建提供自动化支持。这个见解强调AI在创意和模拟物理现象方面的潜力，同时也提醒我们AI技术仍有待发展，特别是在理解和模拟复杂物理世界方面。

大的来了！！ Luma 发布 DIT 视频生成模型 Dream Machine。

大的来了！！ Luma 发布 DIT 视频生成模型 Dream Machine。图生视频的表现相当惊艳，绝对是电影级表现。分辨率、运动幅度、美学表现都是非常牛批，现在可以免费使用。这里使用： Invalid media:

上午看 Sora 的几点收获：

上午看 Sora 的几点收获： Sora完全站在了Openai成功产品的肩膀上。 chatGPT背后是个大语言模型，把一个句子拆成若干个token，可能是一个单词、一个词组、一个短句，通过海量数据训练，推测下一个最大概率的token（生成文字）。 Sora模型，同样是把海量视频拆成一个个分块，配合GPT强大的语言能力，给视频分块增加和扩充文字描述。当海量的训练视频都用这种分块统一拆分学习后，用户输入新指令，就可以从不同的分块里预测和生成新的视频分块，再变成一整条视频。即：用语言模型把用户指令扩写和改写输入视频模型生成新视频这相当于人类给了一个作文题，语言模型写一篇描写场景的小作文，Sora再根据这篇作文生成视频，所以细节会比其他 AI 视频产品强太多。新世界降临前夕，我们普通人可以做什么？快刀青衣老师的观点：不管是文生视频、文生图，技术底层关注的是「生」，而我们普通人需要关注的是「文」。表达有短板、想象力不够，出来的图和视频是没有意境的。有文化的你输入“大漠孤烟直，长河落日圆”，没文化的我输入“沙漠上空挂着一个圆太阳”，出来的效果就是卖家秀和买家秀的区别。保持阅读、在阅读的时候记录下具有画面感的段落、收集经典电影的精彩镜头…… 在技术逐渐平权的时代当下，期待我们每个人都能有“超能力”。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人