微软的论文,基于已经发布的内容和他们自己的逆向工程,全面回顾了 Sora 的背景、相关技术、新兴应用、当前的局限性和未来的机遇。

微软的论文,基于已经发布的内容和他们自己的逆向工程,全面回顾了Sora的背景、相关技术、新兴应用、当前的局限性和未来的机遇。非常全面和条理,建议全文阅读。论文简介:本文基于公开的技术报告和对Sora的逆向工程分析,全面评述了该模型的发展背景、相关技术、应用领域、当前面临的挑战以及文字到视频AI模型的未来趋势。文章首先回顾了Sora的发展历程,并深入探讨了构建这一“虚拟世界模拟器”的关键技术。随后,文中详细介绍了Sora在电影制作、教育、市场营销等多个行业中的应用及其可能带来的影响。我们还讨论了要大规模部署Sora所需解决的主要挑战和限制因素,例如如何确保视频生成的安全性和公正性。最后,文章探讨了Sora以及视频生成模型的未来发展方向,以及该领域的进步如何可能为人类与AI的互动开辟新的方式,从而提高视频制作的效率和创造力。论文地址:

相关推荐

封面图片

Sora的局限性:

对sora比较深入的分析从电影和游戏行业的视角出发。指出了Sora在模拟物理现象和创意内容生成方面的局限性,也强调了其在多模态学习和生成能力上的潜力。以下是意见的总结:Sora的局限性:Sora虽然能够模拟物理现象,但其物理理解仍然脆弱,无法完全替代专业的物理引擎。在物体交互和物理规则的理解上存在不足,可能导致超现实的结果。Sora的生成内容依赖于大量数据的压缩和提炼,而非完全的物理模拟。Sora的创新与潜力:通过将视频内容压缩到隐空间,Sora有效地解决了处理高分辨率视频所需的计算资源问题。其技术可能影响实时影像资料的处理和分析,如直播和监控视频数据。Sora的应用可能为AI模型训练提供新路径,特别是在多模态数据和复杂现实世界情境的理解方面。对未来的展望:Sora技术的发展可能需要在提升算力和优化算法效率之间找到平衡。尽管Sora不会取代游戏引擎开发者或影视特效师,但它可以作为创意预览阶段的工具,帮助普通人进行民主化创作。Sora的多模态能力可能通过3D引擎模型进一步发展,为虚拟世界的构建提供自动化支持。这个见解强调AI在创意和模拟物理现象方面的潜力,同时也提醒我们AI技术仍有待发展,特别是在理解和模拟复杂物理世界方面。

封面图片

Sora:探索大型视觉模型的前世今生、技术内核及未来趋势 | blog

Sora:探索大型视觉模型的前世今生、技术内核及未来趋势Sora,一款由OpenAI在2024年2月推出的创新性文转视频生成式AI模型,能够依据文字说明,创作出既真实又富有想象力的场景视频,展现了其在模拟现实世界方面的巨大潜能。本文基于公开技术文档和逆向工程分析,全面审视了Sora背后的技术背景、应用场景、当前面临的挑战以及文转视频AI技术的未来发展方向。文章首先回顾了Sora的开发历程,探索了支撑这一“数字世界构建者”的关键技术。接着探讨了Sora在电影制作、教育、市场营销等多个领域内的应用潜力及其可能带来的影响。文章还深入讨论了为实现Sora的广泛应用需克服的主要挑战,例如保证视频生成的安全性和公正性。最后展望了Sora乃至整个视频生成模型技术未来的发展趋势,以及这些技术进步如何开创人机互动的新方式,进而提升视频创作的效率和创新性。

封面图片

谷歌新论文称“AI即将超越人类”还不现实 其有自身局限性

谷歌新论文称“AI即将超越人类”还不现实其有自身局限性在11月1日提交给ArXiv的一篇新论文中,三名作者SteveYadlowsky、LyricDoshi和NileshTripuraneni写道:“当任务或功能需要超出预训练数据的范围时,transformer出现了各种故障模式,发现即使是简单的任务外延也会降低它们的归纳能力。”根据这篇论文的说法,深度神经网络transformer所擅长的是执行与训练数据相关的任务,并不太擅长处理超出这个范围的任务。对于那些希望实现通用人工智能(AGI)的人来说,这个问题不容忽视。通用人工智能是技术人员用来描述可以完成任何人类所做事情的假想人工智能。就目前而言,人工智能非常擅长执行特定任务,但不像人类那样能跨领域转移技能。华盛顿大学计算机科学与工程荣誉教授佩德罗·多明戈斯(PedroDomingos)表示,新研究意味着“在这一点上,我们不应该对即将到来的人工智能过于疯狂。”人们将AGI吹捧为人工智能领域的终极目标,从理论上讲,其代表着人类创造出与自己一样聪明或比自己更聪明的东西。许多投资者和技术人员都在为此投入大量时间和精力。本周一,OpenAI首席执行官萨姆·奥尔特曼(SamAltman)就与微软首席执行官萨蒂亚·纳德拉(SatyaNadella)共同登台,重申了他关于“合作打造AGI”的愿景。实现这一目标意味着让人工智能完成许多人类大脑可以完成的归纳性任务,包括适应不熟悉的场景、创建类比、处理新信息以及抽象思维等等。但是,正如研究人员指出的那样,如果这项技术连“简单的任务外延”都难以实现,那么显然我们离目标还很远。普林斯顿大学计算机科学教授阿尔温德·纳拉亚南(ArvindNarayanan)在社交媒体平台X上写道:“这篇论文甚至与大语言模型无关,但似乎是打破集体信念泡沫的最后一根稻草,让许多人接受了大语言模型的局限性。”“该是清醒的时候了”。英伟达高级人工智能科学家JinFan质疑为什么这篇论文的发现会让人们感到惊讶,因为“transformer本来就不是灵丹妙药”。多明戈斯表示,这项研究凸显出,对于一项被吹捧为通向AGI之路的技术潜力,“很多人都感到非常困惑”。他补充说:“这是篇刚刚发表的论文,有趣的是谁会感到惊讶,谁不会感到惊讶。”虽然多明戈斯承认transformer是一项先进的技术,但他相信很多人认为这种深度神经网络比实际要强大得多。他说:“问题是神经网络非常不透明,而且这些大语言模型都是在难以想象的大量数据上训练的,这让很多人对它们能做什么和不能做什么感到非常困惑。”“他们开始总认为自己可以创造奇迹。”更高级的人工智能可能会在归纳概括方面做得更好。谷歌研究人员在研究中使用的是GPT-2比例模型,而不是更主流的GPT-4比例模型。人工智能初创企业LaminiAI首席执行官莎朗·周(SharonZhou)认为,她自己并不觉得transformer很难归纳概括是个问题。“这就是为什么我创办了一家训练模型的公司,而不仅仅是向它们提问,这样它们就能学到新东西,”她说。“它们仍然非常有用,仍然可以引导和调整。”...PC版:https://www.cnbeta.com.tw/articles/soft/1395261.htm手机版:https://m.cnbeta.com.tw/view/1395261.htm

封面图片

这是构成Sora基础之一的Diffusion Transformer论文作者关于Sora的一些猜测和技术解释。#ai视频#Sor

这是构成Sora基础之一的DiffusionTransformer论文作者关于Sora的一些猜测和技术解释。这个老哥可能是除了这篇论文的另一个作者(现在在OpenAI工作)之外最懂DiffusionTransformer的人了,非常值得关注。有趣的是这篇论文曾经在2023年的计算机视觉会议(CVR2023)上因“缺少创新性”而遭到拒绝,短短一年时间就变成了Sora这怪物模型的理论基础。-------------正文开始-------------以下是我对Sora技术报告的解读,其中包含了一些可能并不准确的猜测。首先,我非常感谢团队分享了极为有价值的见解和设计决策——Sora确实令人惊叹,它将彻底改变视频生成领域。我们目前所了解到的情况如下:架构:Sora基于我们的扩散变换器(DiffusionTransformer,简称DiT)模型构建,该模型已发表在2023年国际计算机视觉会议(ICCV2023)上。简单来说,它是一个结合了变换器(Transformer)主干的扩散模型:DiT=[变分自编码器(VAE)编码器+视觉变换器(ViT)+去噪扩散概率模型(DDPM)+VAE解码器]。根据报告,这个模型似乎没有太多额外的复杂设计。“视频压缩网络”:这看起来就像是一个在原始视频数据上训练的变分自编码器(VAE)。在实现良好的时间一致性方面,标记化(Tokenization)可能扮演着关键角色。顺便提一下,VAE本质上是一个卷积网络,所以从技术上说,DiT实际上是一个混合模型。;)当Bill和我参与DiT项目时,我们并未专注于创新(详见我之前的推特),而是将重点放在了两个方面:简洁性和可扩展性。这些优先事项带来的不仅仅是概念上的优势。简洁性代表着灵活性。关于标准的视觉变换器(ViT),人们常忽视的一个亮点是,它让模型在处理输入数据时变得更加灵活。例如,在遮蔽自编码器(MAE)中,ViT帮助我们只处理可见的区块,忽略被遮蔽的部分。同样,Sora可以通过在适当大小的网格中排列随机初始化的区块来控制生成视频的尺寸。而UNet并不直接提供这种灵活性。猜测:Sora可能还使用了Google的Patchn’Pack(NaViT)技术,使DiT能够适应不同的分辨率、持续时间和长宽比。

封面图片

可扩展性是DiT论文的核心主题。首先,经过优化的DiT在每Flop的实际运行时间上比UNet要快得多。更重要的是,Sora证明了

可扩展性是DiT论文的核心主题。首先,经过优化的DiT在每Flop的实际运行时间上比UNet要快得多。更重要的是,Sora证明了DiT的扩展法则不仅适用于图像,现在也适用于视频——Sora复制了在DiT中观察到的视觉扩展行为。猜测:在Sora报告中,第一个视频的质量相当差,我怀疑它使用的是基础模型尺寸。粗略计算一下:DiTXL/2的GFLOPs是B/2模型的5倍,所以最终16倍计算模型可能是3倍DiT-XL模型的大小,这意味着Sora可能有约3亿参数——如果这是真的,这并非一个不合理的模型大小。这可能意味着,训练Sora模型可能不需要像人们预期的那样多的GPU——我预计未来的迭代速度会非常快。关键的收获来自于“新兴模拟能力”部分。在Sora出现之前,人们不清楚是否可以自然形成长篇连贯性,或者是否需要复杂的以主题为导向的生成流程,甚至物理模拟器。OpenAI已经证明,尽管不完美,但这些行为可以通过端到端训练来实现。然而,有两个关键点尚未被讨论。1.训练数据:关于训练数据的来源和构建完全没有提及,这可能意味着数据很可能是Sora成功的关键因素。猜测:关于来自游戏引擎的数据已有许多猜测。我也预计可能会包括电影、纪录片、电影长镜头等。质量非常重要。我非常好奇Sora从哪里获取这些数据的(肯定不仅仅是YouTube,对吧?)。2.(自回归的)长视频生成:Sora的一大突破是能够生成非常长的视频。制作2秒视频和1分钟视频之间的差异是巨大的。在Sora中,这可能是通过联合帧预测实现的,允许自回归采样,但一个主要的挑战是如何解决错误累积,并在时间上保持质量和一致性。是需要一个非常长的(并且是双向的)上下文来进行条件化?还是说仅仅通过扩大规模就可以减少问题?这些技术细节可能非常重要,希望未来能够被逐渐揭示。扩散变换器(DiT)在Sora中的应用效果非常出色。我们纽约大学的团队最近发布了一款新的DiT模型,名为SiT。它保持了与DiT完全相同的架构,但在性能上有所提升,收敛速度更快。我对它在视频生成方面的表现也非常感兴趣!DiT论文地址:

封面图片

字节辟谣推出中文版Sora:产品未完善 距离国外还有很大差距

字节辟谣推出中文版Sora:产品未完善距离国外还有很大差距对此,字节跳动相关人士回应称,Boximator是视频生成领域控制对象运动的技术方法研究项目,目前还无法作为完善的产品落地。而且距离国外领先的视频生成模型在画面质量、保真率、视频时长等方面还有很大差距。根据此前报道,OpenAI前不久发布了首个视频生成模型Sora,只要输入提示词,就能生成1分钟的高清视频,已经被看作是改写整个视频生成领域的新王炸技术。据介绍,该模型能生成包含多个角色,以及特定类型运动的复杂场景,能精确生成物体和背景的细节在官网上已经更新了48个视频实例中,Sora能够准确呈现视频细节,还能深刻理解物体在现实世界中的存在状态,并生成具有丰富情感的角色。...PC版:https://www.cnbeta.com.tw/articles/soft/1419397.htm手机版:https://m.cnbeta.com.tw/view/1419397.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人