世界上剩下的两只北方白犀牛之一，母亲和女儿每天24小时守卫#犀牛幸存了5500万年，经历了冰河时代、地震、流星袭击，证明了地球上

世界上剩下的两只北方白犀牛之一，母亲和女儿每天24小时守卫犀牛幸存了5500万年，经历了冰河时代、地震、流星袭击，证明了地球上无

世界上剩下的两只北方白犀牛之一，母亲和女儿每天24小时守卫幸存了5500万年，经历了冰河时代、地震、流星袭击，证明了地球上无数的

可扩展性是DiT论文的核心主题。首先，经过优化的DiT在每Flop的实际运行时间上比UNet要快得多。更重要的是，Sora证明了

可扩展性是DiT论文的核心主题。首先，经过优化的DiT在每Flop的实际运行时间上比UNet要快得多。更重要的是，Sora证明了DiT的扩展法则不仅适用于图像，现在也适用于视频——Sora复制了在DiT中观察到的视觉扩展行为。猜测：在Sora报告中，第一个视频的质量相当差，我怀疑它使用的是基础模型尺寸。粗略计算一下：DiTXL/2的GFLOPs是B/2模型的5倍，所以最终16倍计算模型可能是3倍DiT-XL模型的大小，这意味着Sora可能有约3亿参数——如果这是真的，这并非一个不合理的模型大小。这可能意味着，训练Sora模型可能不需要像人们预期的那样多的GPU——我预计未来的迭代速度会非常快。关键的收获来自于“新兴模拟能力”部分。在Sora出现之前，人们不清楚是否可以自然形成长篇连贯性，或者是否需要复杂的以主题为导向的生成流程，甚至物理模拟器。OpenAI已经证明，尽管不完美，但这些行为可以通过端到端训练来实现。然而，有两个关键点尚未被讨论。1.训练数据：关于训练数据的来源和构建完全没有提及，这可能意味着数据很可能是Sora成功的关键因素。猜测：关于来自游戏引擎的数据已有许多猜测。我也预计可能会包括电影、纪录片、电影长镜头等。质量非常重要。我非常好奇Sora从哪里获取这些数据的（肯定不仅仅是YouTube，对吧？）。2.（自回归的）长视频生成：Sora的一大突破是能够生成非常长的视频。制作2秒视频和1分钟视频之间的差异是巨大的。在Sora中，这可能是通过联合帧预测实现的，允许自回归采样，但一个主要的挑战是如何解决错误累积，并在时间上保持质量和一致性。是需要一个非常长的（并且是双向的）上下文来进行条件化？还是说仅仅通过扩大规模就可以减少问题？这些技术细节可能非常重要，希望未来能够被逐渐揭示。扩散变换器（DiT）在Sora中的应用效果非常出色。我们纽约大学的团队最近发布了一款新的DiT模型，名为SiT。它保持了与DiT完全相同的架构，但在性能上有所提升，收敛速度更快。我对它在视频生成方面的表现也非常感兴趣！DiT论文地址：

世界上剩下的两只北方白犀牛之一，母亲和女儿每天24小时守卫#犀牛幸存了5500万年，经历了冰河时代、地震、流星袭击，证明了地球上

相关推荐