微软的论文,基于已经发布的内容和他们自己的逆向工程,全面回顾了 Sora 的背景、相关技术、新兴应用、当前的局限性和未来的机遇。

微软的论文,基于已经发布的内容和他们自己的逆向工程,全面回顾了 Sora 的背景、相关技术、新兴应用、当前的局限性和未来的机遇。 非常全面和条理,建议全文阅读。 论文简介: 本文基于公开的技术报告和对Sora的逆向工程分析,全面评述了该模型的发展背景、相关技术、应用领域、当前面临的挑战以及文字到视频AI模型的未来趋势。 文章首先回顾了Sora的发展历程,并深入探讨了构建这一“虚拟世界模拟器”的关键技术。随后,文中详细介绍了Sora在电影制作、教育、市场营销等多个行业中的应用及其可能带来的影响。 我们还讨论了要大规模部署Sora所需解决的主要挑战和限制因素,例如如何确保视频生成的安全性和公正性。 最后,文章探讨了Sora以及视频生成模型的未来发展方向,以及该领域的进步如何可能为人类与AI的互动开辟新的方式,从而提高视频制作的效率和创造力。 论文地址:

相关推荐

封面图片

Sora:探索大型视觉模型的前世今生、技术内核及未来趋势 |

Sora:探索大型视觉模型的前世今生、技术内核及未来趋势 | Sora,一款由 OpenAI 在 2024 年 2 月推出的创新性文转视频生成式 AI 模型,能够依据文字说明,创作出既真实又富有想象力的场景视频,展现了其在模拟现实世界方面的巨大潜能。 本文基于公开技术文档和逆向工程分析,全面审视了 Sora 背后的技术背景、应用场景、当前面临的挑战以及文转视频 AI 技术的未来发展方向。 文章首先回顾了 Sora 的开发历程,探索了支撑这一“数字世界构建者”的关键技术。接着探讨了 Sora 在电影制作、教育、市场营销等多个领域内的应用潜力及其可能带来的影响。 文章还深入讨论了为实现 Sora 的广泛应用需克服的主要挑战,例如保证视频生成的安全性和公正性。 最后展望了 Sora 乃至整个视频生成模型技术未来的发展趋势,以及这些技术进步如何开创人机互动的新方式,进而提升视频创作的效率和创新性。

封面图片

OpenAl Sora 视频生成耗时长:挑战与机遇并存

OpenAl Sora 视频生成耗时长:挑战与机遇并存 OpenAI 发布的Sora模型虽然能够根据文本生成逼真视频,但1分钟视频需要超过1小时渲染时间,反映了当前AI视频生成技术的挑战和未来的改进空间

封面图片

这是构成Sora基础之一的Diffusion Transformer论文作者关于Sora的一些猜测和技术解释。

这是构成Sora基础之一的Diffusion Transformer论文作者关于Sora的一些猜测和技术解释。 这个老哥可能是除了这篇论文的另一个作者(现在在Open AI工作)之外最懂Diffusion Transformer的人了,非常值得关注。 有趣的是这篇论文曾经在2023年的计算机视觉会议(CVR2023)上因“缺少创新性”而遭到拒绝,短短一年时间就变成了Sora这怪物模型的理论基础。 -正文开始- 以下是我对Sora技术报告的解读,其中包含了一些可能并不准确的猜测。首先,我非常感谢团队分享了极为有价值的见解和设计决策Sora确实令人惊叹,它将彻底改变视频生成领域。 我们目前所了解到的情况如下: 架构:Sora基于我们的扩散变换器(Diffusion Transformer,简称DiT)模型构建,该模型已发表在2023年国际计算机视觉会议(ICCV 2023)上。简单来说,它是一个结合了变换器(Transformer)主干的扩散模型: DiT = [变分自编码器(VAE)编码器 + 视觉变换器(ViT)+ 去噪扩散概率模型(DDPM)+ VAE解码器]。 根据报告,这个模型似乎没有太多额外的复杂设计。 “视频压缩网络”:这看起来就像是一个在原始视频数据上训练的变分自编码器(VAE)。在实现良好的时间一致性方面,标记化(Tokenization)可能扮演着关键角色。顺便提一下,VAE本质上是一个卷积网络,所以从技术上说,DiT实际上是一个混合模型。 ;) 当Bill和我参与DiT项目时,我们并未专注于创新(详见我之前的推特),而是将重点放在了两个方面:简洁性和可扩展性。这些优先事项带来的不仅仅是概念上的优势。 简洁性代表着灵活性。关于标准的视觉变换器(ViT),人们常忽视的一个亮点是,它让模型在处理输入数据时变得更加灵活。例如,在遮蔽自编码器(MAE)中,ViT帮助我们只处理可见的区块,忽略被遮蔽的部分。同样,Sora可以通过在适当大小的网格中排列随机初始化的区块来控制生成视频的尺寸。而UNet并不直接提供这种灵活性。 猜测:Sora可能还使用了Google的Patch n’ Pack(NaViT)技术,使DiT能够适应不同的分辨率、持续时间和长宽比。

封面图片

可扩展性是DiT论文的核心主题。首先,经过优化的DiT在每Flop的实际运行时间上比UNet要快得多。更重要的是,Sora证明了

可扩展性是DiT论文的核心主题。首先,经过优化的DiT在每Flop的实际运行时间上比UNet要快得多。更重要的是,Sora证明了DiT的扩展法则不仅适用于图像,现在也适用于视频Sora复制了在DiT中观察到的视觉扩展行为。 猜测:在Sora报告中,第一个视频的质量相当差,我怀疑它使用的是基础模型尺寸。粗略计算一下:DiT XL/2的GFLOPs是B/2模型的5倍,所以最终16倍计算模型可能是3倍DiT-XL模型的大小,这意味着Sora可能有约3亿参数如果这是真的,这并非一个不合理的模型大小。这可能意味着,训练Sora模型可能不需要像人们预期的那样多的GPU我预计未来的迭代速度会非常快。 关键的收获来自于“新兴模拟能力”部分。在Sora出现之前,人们不清楚是否可以自然形成长篇连贯性,或者是否需要复杂的以主题为导向的生成流程,甚至物理模拟器。OpenAI已经证明,尽管不完美,但这些行为可以通过端到端训练来实现。然而,有两个关键点尚未被讨论。 1. 训练数据:关于训练数据的来源和构建完全没有提及,这可能意味着数据很可能是Sora成功的关键因素。 猜测:关于来自游戏引擎的数据已有许多猜测。我也预计可能会包括电影、纪录片、电影长镜头等。质量非常重要。我非常好奇Sora从哪里获取这些数据的(肯定不仅仅是YouTube,对吧?)。 2.(自回归的)长视频生成:Sora的一大突破是能够生成非常长的视频。制作2秒视频和1分钟视频之间的差异是巨大的。 在Sora中,这可能是通过联合帧预测实现的,允许自回归采样,但一个主要的挑战是如何解决错误累积,并在时间上保持质量和一致性。是需要一个非常长的(并且是双向的)上下文来进行条件化?还是说仅仅通过扩大规模就可以减少问题?这些技术细节可能非常重要,希望未来能够被逐渐揭示。 扩散变换器(DiT)在Sora中的应用效果非常出色。我们纽约大学的团队最近发布了一款新的DiT模型,名为SiT。它保持了与DiT完全相同的架构,但在性能上有所提升,收敛速度更快。我对它在视频生成方面的表现也非常感兴趣! DiT论文地址:

封面图片

字节辟谣推出中文版Sora:产品未完善 距离国外还有很大差距

字节辟谣推出中文版Sora:产品未完善 距离国外还有很大差距 对此,字节跳动相关人士回应称,Boximator是视频生成领域控制对象运动的技术方法研究项目,目前还无法作为完善的产品落地。而且距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。根据此前报道,OpenAI前不久发布了首个视频生成模型Sora,只要输入提示词,就能生成1分钟的高清视频,已经被看作是改写整个视频生成领域的新王炸技术。据介绍,该模型能生成包含多个角色,以及特定类型运动的复杂场景,能精确生成物体和背景的细节在官网上已经更新了48个视频实例中,Sora能够准确呈现视频细节,还能深刻理解物体在现实世界中的存在状态,并生成具有丰富情感的角色。 ... PC版: 手机版:

封面图片

快手发布国内首个效果对标Sora的视频生成大模型“可灵”,现已开放邀测

快手发布国内首个效果对标Sora的视频生成大模型“可灵”,现已开放邀测 近日,快手“可灵”视频生成大模型官网正式上线。据介绍,可灵大模型为快手AI团队自研,基于快手在视频技术方面的多年积累,采用Sora相似的技术路线,结合多项自研技术创新,效果对标Sora。可灵大模型不仅具备强大的概念组合能力和想象力,还能够生成大幅度的合理运动、模拟物理世界特性。其生成的视频分辨率高达1080p,时长最高可达2分钟(帧率30fps),且支持自由的宽高比。目前,可灵大模型已在快影App开放邀测体验。(36氪) 标签: #快手 #Sora #可灵 频道: @GodlyNews1 投稿: @GodlyNewsBot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人