可扩展性是DiT论文的核心主题。首先,经过优化的DiT在每Flop的实际运行时间上比UNet要快得多。更重要的是,Sora证明了

可扩展性是DiT论文的核心主题。首先,经过优化的DiT在每Flop的实际运行时间上比UNet要快得多。更重要的是,Sora证明了DiT的扩展法则不仅适用于图像,现在也适用于视频Sora复制了在DiT中观察到的视觉扩展行为。 猜测:在Sora报告中,第一个视频的质量相当差,我怀疑它使用的是基础模型尺寸。粗略计算一下:DiT XL/2的GFLOPs是B/2模型的5倍,所以最终16倍计算模型可能是3倍DiT-XL模型的大小,这意味着Sora可能有约3亿参数如果这是真的,这并非一个不合理的模型大小。这可能意味着,训练Sora模型可能不需要像人们预期的那样多的GPU我预计未来的迭代速度会非常快。 关键的收获来自于“新兴模拟能力”部分。在Sora出现之前,人们不清楚是否可以自然形成长篇连贯性,或者是否需要复杂的以主题为导向的生成流程,甚至物理模拟器。OpenAI已经证明,尽管不完美,但这些行为可以通过端到端训练来实现。然而,有两个关键点尚未被讨论。 1. 训练数据:关于训练数据的来源和构建完全没有提及,这可能意味着数据很可能是Sora成功的关键因素。 猜测:关于来自游戏引擎的数据已有许多猜测。我也预计可能会包括电影、纪录片、电影长镜头等。质量非常重要。我非常好奇Sora从哪里获取这些数据的(肯定不仅仅是YouTube,对吧?)。 2.(自回归的)长视频生成:Sora的一大突破是能够生成非常长的视频。制作2秒视频和1分钟视频之间的差异是巨大的。 在Sora中,这可能是通过联合帧预测实现的,允许自回归采样,但一个主要的挑战是如何解决错误累积,并在时间上保持质量和一致性。是需要一个非常长的(并且是双向的)上下文来进行条件化?还是说仅仅通过扩大规模就可以减少问题?这些技术细节可能非常重要,希望未来能够被逐渐揭示。 扩散变换器(DiT)在Sora中的应用效果非常出色。我们纽约大学的团队最近发布了一款新的DiT模型,名为SiT。它保持了与DiT完全相同的架构,但在性能上有所提升,收敛速度更快。我对它在视频生成方面的表现也非常感兴趣! DiT论文地址:

相关推荐

封面图片

这是构成Sora基础之一的Diffusion Transformer论文作者关于Sora的一些猜测和技术解释。

这是构成Sora基础之一的Diffusion Transformer论文作者关于Sora的一些猜测和技术解释。 这个老哥可能是除了这篇论文的另一个作者(现在在Open AI工作)之外最懂Diffusion Transformer的人了,非常值得关注。 有趣的是这篇论文曾经在2023年的计算机视觉会议(CVR2023)上因“缺少创新性”而遭到拒绝,短短一年时间就变成了Sora这怪物模型的理论基础。 -正文开始- 以下是我对Sora技术报告的解读,其中包含了一些可能并不准确的猜测。首先,我非常感谢团队分享了极为有价值的见解和设计决策Sora确实令人惊叹,它将彻底改变视频生成领域。 我们目前所了解到的情况如下: 架构:Sora基于我们的扩散变换器(Diffusion Transformer,简称DiT)模型构建,该模型已发表在2023年国际计算机视觉会议(ICCV 2023)上。简单来说,它是一个结合了变换器(Transformer)主干的扩散模型: DiT = [变分自编码器(VAE)编码器 + 视觉变换器(ViT)+ 去噪扩散概率模型(DDPM)+ VAE解码器]。 根据报告,这个模型似乎没有太多额外的复杂设计。 “视频压缩网络”:这看起来就像是一个在原始视频数据上训练的变分自编码器(VAE)。在实现良好的时间一致性方面,标记化(Tokenization)可能扮演着关键角色。顺便提一下,VAE本质上是一个卷积网络,所以从技术上说,DiT实际上是一个混合模型。 ;) 当Bill和我参与DiT项目时,我们并未专注于创新(详见我之前的推特),而是将重点放在了两个方面:简洁性和可扩展性。这些优先事项带来的不仅仅是概念上的优势。 简洁性代表着灵活性。关于标准的视觉变换器(ViT),人们常忽视的一个亮点是,它让模型在处理输入数据时变得更加灵活。例如,在遮蔽自编码器(MAE)中,ViT帮助我们只处理可见的区块,忽略被遮蔽的部分。同样,Sora可以通过在适当大小的网格中排列随机初始化的区块来控制生成视频的尺寸。而UNet并不直接提供这种灵活性。 猜测:Sora可能还使用了Google的Patch n’ Pack(NaViT)技术,使DiT能够适应不同的分辨率、持续时间和长宽比。

封面图片

大的来了!! Luma 发布 DIT 视频生成模型 Dream Machine。

大的来了!! Luma 发布 DIT 视频生成模型 Dream Machine。 图生视频的表现相当惊艳,绝对是电影级表现。 分辨率、运动幅度、美学表现都是非常牛批,现在可以免费使用。 这里使用: Invalid media:

封面图片

作为 2024 开年王炸,Sora 的出现树立了一个全新的追赶目标,每个文生视频的研究者都想在最短的时间内复现 Sora 的效果

作为 2024 开年王炸,Sora 的出现树立了一个全新的追赶目标,每个文生视频的研究者都想在最短的时间内复现 Sora 的效果。 最近,新加坡国立大学尤洋团队开源的一个名为 OpenDiT 的项目为训练和部署 DiT 模型打开了新思路。 OpenDiT 是一个易于使用、快速且内存高效的系统,专门用于提高 DiT 应用程序的训练和推理效率,包括文本到视频生成和文本到图像生成。 |

封面图片

华为发布 DiT 架构的图像生成模型,可以直出 4K 分辨率图像。

华为发布 DiT 架构的图像生成模型,可以直出 4K 分辨率图像。 论文简介: 我们引入了 PixArt-\Sigma,一个能够直接生成 4K 分辨率图像的 Diffusion Transformer (Diffusion Transformer, DiT) 模型。相比其前身 PixArt-\alpha,PixArt-\Sigma 有了显著进步,提供了明显更高保真度的图像,并改进了与文本提示的一致性。 PixArt-\Sigma 的一个关键特点是其训练效率。借助 PixArt-\alpha 的基础预训练,它通过合并更高质量的数据,从"较弱"的基线演变为"较强"的模型,我们将这个过程称为"弱到强训练"。PixArt-\Sigma 的进步主要体现在两个方面: 高质量训练数据:PixArt-\Sigma 结合了更高质量的图像数据,与更精确和详细的图像标题配对。 高效的 Token 压缩:我们在 DiT 框架内提出了一个新的注意力模块,可以压缩键 (Key) 和值 (Value),显著提高效率,并促进超高分辨率图像生成。 得益于这些改进,PixArt-\Sigma 以显著较小的模型规模 (6 亿参数) 实现了优于现有文本到图像扩散模型 (如 SDXL (26 亿参数) 和 SD Cascade (51 亿参数)) 的图像质量和用户提示遵从能力。 此外,PixArt-\Sigma 生成 4K 图像的能力支持创建高分辨率海报和壁纸,有效地增强了电影和游戏等行业中高质量视觉内容的制作。 项目地址:

封面图片

Jim Fan 对于上条猜测Sora 用 UE5训练的补充说明:

Jim Fan 对于上条猜测Sora 用 UE5训练的补充说明: 很多人对“数据驱动的物理引擎”这个概念可能还有些疑惑,让我来进一步解释。Sora 是一种全新的模型,可以说是一个集成了图像处理和视频生成的智能系统。它能够接收文本或图像输入,并且直接转化成视频像素。这个过程中,Sora 像是在用一种隐式的方 ...

封面图片

[整理] Kwebbelkop对 Open AI 只在 TikTok 发布 Sora 的新视频的猜测有点意思。

[整理] Kwebbelkop对 Open AI 只在 TikTok 发布 Sora 的新视频的猜测有点意思。 OpenAI将收集用户发布的的 Sora 视频的数据来进行模型微调,从而获得更强的 Sora 模型,后期Open AI 可能会推出100% AI 生成内容的 TikTok平台。 其他人发布的视频数据 Open AI 应该是无法获取的,字节也不 ...

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人