对sora比较深入的分析

对sora比较深入的分析 从电影和游戏行业的视角出发。指出了Sora在模拟物理现象和创意内容生成方面的局限性,也强调了其在多模态学习和生成能力上的潜力。以下是意见的总结: Sora的局限性: Sora虽然能够模拟物理现象,但其物理理解仍然脆弱,无法完全替代专业的物理引擎。 在物体交互和物理规则的理解上存在不足,可能导致超现实的结果。 Sora的生成内容依赖于大量数据的压缩和提炼,而非完全的物理模拟。 Sora的创新与潜力: 通过将视频内容压缩到隐空间,Sora有效地解决了处理高分辨率视频所需的计算资源问题。 其技术可能影响实时影像资料的处理和分析,如直播和监控视频数据。 Sora的应用可能为AI模型训练提供新路径,特别是在多模态数据和复杂现实世界情境的理解方面。 对未来的展望: Sora技术的发展可能需要在提升算力和优化算法效率之间找到平衡。 尽管Sora不会取代游戏引擎开发者或影视特效师,但它可以作为创意预览阶段的工具,帮助普通人进行民主化创作。 Sora的多模态能力可能通过3D引擎模型进一步发展,为虚拟世界的构建提供自动化支持。 这个见解强调AI在创意和模拟物理现象方面的潜力,同时也提醒我们AI技术仍有待发展,特别是在理解和模拟复杂物理世界方面。

相关推荐

封面图片

Jim Fan 详细介绍了一下 Sora 的实现原理,这不仅仅是一个视频生成模型这么简单,还是一个基于数据驱动的虚幻 5 引擎。

Jim Fan 详细介绍了一下 Sora 的实现原理,这不仅仅是一个视频生成模型这么简单,还是一个基于数据驱动的虚幻 5 引擎。 如果你以为OpenAI Sora只是一个像DALLE这样的创意小玩具,那你可要重新认识一下了。Sora实际上是一个基于数据驱动的物理引擎,能够模拟各种真实或奇幻的世界。这款模拟器能学会复杂的渲染技术、直观的物理规律、长期的逻辑推理以及语义理解,而这一切都是通过先进的去噪技术和梯度计算实现的。 我甚至猜测,Sora可能是通过使用Unreal Engine 5生成的大量合成数据来进行训练的。这听起来非常有可能! 下面我们来详细分析一段视频。这段视频的提示是:“一杯咖啡里,两艘海盗船相互战斗的逼真特写视频。” •视频中,模拟器创建了两艘装饰各异的精美海盗船的3D模型。Sora需要在其庞大的数据空间中隐式地完成从文本到3D模型的转换。 •这些3D模型的海盗船在航行中能够自然地动起来,它们在避开对方的同时,动作流畅协调。 •还有咖啡的流体动力学表现,包括船只周围形成的泡沫。流体模拟本身就是计算机图形学中一个复杂的分支,通常需要复杂的算法和方程式来实现。 •视频的光影效果逼真,几乎可以媲美光线追踪技术的渲染效果。 •模拟器还考虑到了杯子与海洋相比较小的尺寸,并运用了移轴摄影技术(Tilt-shift photography),为整个场景增添了一种微观世界的感觉。 •虽然视频中的场景在现实世界里找不到对应,但模拟器还是根据我们的期望,准确实现了物理规则。 接下来的步骤是:引入更多的模态和条件变量,我们就可以得到一个全面的、基于数据驱动的Unreal Engine。它将有望替代所有现有的手工设计图形处理流程。

封面图片

Jim Fan 详细介绍了一下 Sora 的实现原理,这不仅仅是一个视频生成模型这么简单,还是一个基于数据驱动的虚幻 5 引擎。

Jim Fan 详细介绍了一下 Sora 的实现原理,这不仅仅是一个视频生成模型这么简单,还是一个基于数据驱动的虚幻 5 引擎。 如果你以为OpenAI Sora只是一个像DALLE这样的创意小玩具,那你可要重新认识一下了。Sora实际上是一个基于数据驱动的物理引擎,能够模拟各种真实或奇幻的世界。这款模拟器能学会复杂的渲染技术、直观的物理规律、长期的逻辑推理以及语义理解,而这一切都是通过先进的去噪技术和梯度计算实现的。 我甚至猜测,Sora可能是通过使用Unreal Engine 5生成的大量合成数据来进行训练的。这听起来非常有可能! 下面我们来详细分析一段视频。这段视频的提示是:“一杯咖啡里,两艘海盗船相互战斗的逼真特写视频。” •视频中,模拟器创建了两艘装饰各异的精美海盗船的3D模型。Sora需要在其庞大的数据空间中隐式地完成从文本到3D模型的转换。 •这些3D模型的海盗船在航行中能够自然地动起来,它们在避开对方的同时,动作流畅协调。 •还有咖啡的流体动力学表现,包括船只周围形成的泡沫。流体模拟本身就是计算机图形学中一个复杂的分支,通常需要复杂的算法和方程式来实现。 •视频的光影效果逼真,几乎可以媲美光线追踪技术的渲染效果。 •模拟器还考虑到了杯子与海洋相比较小的尺寸,并运用了移轴摄影技术(Tilt-shift photography),为整个场景增添了一种微观世界的感觉。 •虽然视频中的场景在现实世界里找不到对应,但模拟器还是根据我们的期望,准确实现了物理规则。 接下来的步骤是:引入更多的模态和条件变量,我们就可以得到一个全面的、基于数据驱动的Unreal Engine。它将有望替代所有现有的手工设计图形处理流程。 Invalid media:

封面图片

OpenAI 推出文本到视频人工智能模型 Sora

OpenAI 推出文本到视频人工智能模型 Sora 根据 OpenAI 的介绍博文,Sora 能够创建"具有多个角色、特定运动类型以及主体和背景准确细节的复杂场景"。该公司还指出,该模型能够理解物体"在物理世界中的存在方式",还能"准确解释道具并生成表达生动情感的引人注目的角色"。该模型还能根据静态图像生成视频,以及在现有视频中填充缺失的帧或扩展视频。OpenAI 的博文中包含的 Sora 生成的演示包括淘金热时期加利福尼亚州的空中场景、从东京火车内部拍摄的视频等。许多演示都有人工智能的痕迹比如在一段博物馆的视频中,地板疑似在移动。OpenAI 表示,该模型"可能难以准确模拟复杂场景的物理现象",但总体而言,演示结果令人印象深刻。几年前,像 Midjourney 这样的文本到图像生成器在模型将文字转化为图像的能力方面处于领先地位。但最近,视频技术开始飞速进步:Runway 和 Pika 等公司都展示了自己令人印象深刻的文字转视频模型,而Google的 Lumiere 也将成为 OpenAI 在这一领域的主要竞争对手之一。与 Sora 类似,Lumiere 也为用户提供了文字转换视频的工具,还能让用户通过静态图像创建视频。Sora 目前只对"红队"人员开放,他们负责评估模型的潜在危害和风险。OpenAI 还向一些视觉艺术家、设计师和电影制片人提供访问权限,以获得反馈意见。它指出,现有模型可能无法准确模拟复杂场景的物理现象,也可能无法正确解释某些因果关系。本月早些时候,OpenAI 宣布将在其文本到图像工具 DALL-E 3 中添加水印,但指出这些水印"很容易去除"。与其他人工智能产品一样,OpenAI 将不得不面对人工智能逼真视频被误认为是真实视频的后果。 ... PC版: 手机版:

封面图片

OpenAI的Sora视频生成模型也能用来渲染游戏

OpenAI的Sora视频生成模型也能用来渲染视频游戏 这篇题为《作为世界模拟器的视频生成模型》(Video generation models as world simulators)的论文由多位 OpenAI 研究人员共同撰写,揭开了 Sora 架构关键方面的神秘面纱例如,Sora 可以生成任意分辨率和长宽比(最高 1080p)的视频。根据论文所述,Sora 能够执行一系列图像和视频编辑任务,从创建循环视频、向前或向后延伸视频到更改现有视频的背景。但最吸引笔者的还是 Sora"模拟数字世界"的能力,OpenAI 的合著者如是说。在一次实验中,OpenAI 将 Sora 放到 Minecraft 上,让它在控制玩家的同时渲染世界及其动态(包括物理)。Sora 在 Minecraft 中控制一名玩家,并渲染视频游戏世界,请注意,颗粒感是由视频到 GIF 的转换工具造成的,而不是 Sora。图片来源:OpenAIOpenAI那么,Sora 是如何做到这一点的呢?正如 NVIDIA 高级研究员 Jim Fan(通过 Quartz)所说,与其说 Sora 是一个创意引擎,不如说它是一个"数据驱动的物理引擎"。它不仅能生成单张照片或视频,还能确定环境中每个物体的物理特性,并根据这些计算结果渲染照片或视频(或交互式 3D 世界,视情况而定)。合著者写道:"这些功能表明,继续扩展视频模型是开发物理和数字世界以及其中的物体、动物和人的高能力模拟器的一条大有可为的途径。"现在,Sora在视频游戏领域也有其通常的局限性。该模型无法准确模拟玻璃碎裂等基本互动的物理过程。即使在可以建模的互动中,Sora 也经常出现不一致的情况,例如在渲染一个人吃汉堡时,却无法渲染汉堡上的咬痕。不过,如果我没看错的话,Sora 似乎可以为更逼真(甚至可能是逼真)的程序生成游戏铺平道路。这既令人兴奋,又令人恐惧(考虑到Deepfake的影响)这也许就是为什么 OpenAI 选择暂时将 Sora 关在一个非常有限的访问程序后面的原因。相关文章:OpenAI 推出文本到视频人工智能模型 SoraOpenAI首个视频生成模型发布 能生成长达1分钟的高清视频 ... PC版: 手机版:

封面图片

[整理]基于Sora是否真的像Open AI说的一样是个世界模型,又吵起来了。

[整理]基于Sora是否真的像Open AI说的一样是个世界模型,又吵起来了。 基本上就是两派一派类似杨立昆的论点,模型必须理解底层理论从底层理论推导出来物理现象才能叫世界模型。 另一派的意思是只要他表现出来相当程度的物理世界的表现,那就有继续优化的机会,就有可能变成完整的世界 ...

封面图片

Sora对新闻业只有坏处?

Sora对新闻业只有坏处? Sora生成视频:穿过东京郊区的火车窗外对此,复旦大学新闻学院教授、博士生导师邓建国在接受中新社“庖丁解news”专访时表示,“视频记者”这四个字中重要的不是“视频”而是“记者”。新闻报道追求真实(facts),而Sora全是虚拟(fictional),因此它从本质上对新闻业只有坏处没有好处。它唯一可以被新闻业利用的也许是建构在新闻事实基础上的情景再现。01突破性:Sora是向着元宇宙方向的迈进相较于Runway Gen 2、Pika等还在突破几秒内连贯性、单镜头生成的AI视频工具,Sora已经可以生成60秒一镜到底的视频。在OpenAI发布的示例中,视频中的女主角、背景人物栩栩如生、细节丰富,各种镜头随意切换,人物都是保持了稳定性,Sora的AI视频效果,几乎和人工拍摄不相上下。“Sora可以基于一段文字、图片和视频提示(prompt),理解它并根据相应的物理原理在时空上向过去或未来推演,因此而形成60秒钟的视频。”邓建国表示,Sora不是一些人所说的“导致了物理原理的消失”,而是证明了物理原理的强大,也正是因为这一能力,Sora被称为“世界模型”(world model)或者“世界模拟器”(world simulator),因为它具有根据已有信息建模出一个未来可能的世界的能力。邓建国进一步指出,我们此前用文字建构世界,比如曹雪芹用美轮美奂的文字建构了“大观园”,我们通过自己的想象力对其进行可视化;今天同样用文字,我们则可以用技术对其进行可视化。Sora 所基于的技术,如芯片算力、算法以及图形渲染引擎Unreal Engine 5等,都是建设元宇宙的基础设施,因此Sora是向着元宇宙方向的迈进。02冲击性:视频记者不必瑟瑟发抖如果说ChatGPT是语言大师,那么Sora则是一个多模态数据的通才。有学者提出,Sora的出现将深刻影响10个行业,包括短视频行业、影视行业、游戏行业、广告行业、教育行业、电商行业、制造业、科学研究、建筑行业、艺术创作行业等。在人才培养方面,邓建国预测,Sora将对大学影视专业的人才培养形成较大的冲击。Sora生成视频:几只巨大的毛茸茸的猛犸象正踏着白雪皑皑的草地走来中国人民大学吴玉章讲席教授、国家发展与战略研究院研究员刘永谋在《新京报》评论撰文认为,短视频时代,Sora既然可与人工媲美,制造短视频的专门团队可能就面临下岗危险。要知道,短视频的摄影、导演、剪辑等任务,Sora“一个人”费点电就全包了。对于媒体而言,不少视频记者担心自己的工作会被Sora代替。“‘视频记者’这四个字中重要的不是‘视频’而是‘记者’。如果记者没有脚力、眼力、脑力和笔力,而仅仅满足于坐在空调房里进行网络内容搜索、编辑和发布,这样的记者在任何时候都不具备不可替代性。”与此同时,邓建国也表示,目前Sora生成的视频还不能做到完全真实,有的细节破绽用肉眼可以识别,有的通过AI能识别。所以创作者如何使用文字精确地控制视频的细节和效果,目前还有待Sora迭代发展。提示词为“考古学家在沙漠中发现了一把普通的塑料椅子,正小心翼翼地挖掘和除尘”,Sora生成的视频出现了椅子变形、自动行走等诡异的场景“我们一直在说,传播业已经发生了‘视觉转向’(a visual turn),但ChatGPT、Midjourney、 Stable Diffusion 和Sora似乎告诉我们,文字是一切媒介之母。影视业和短视频从业者仍然不能抛弃文字,而要精通文字表达。”03危险性:警惕深度造伪风险图文时代,都说“有图有真相”,结果发现图可以P;到了视频时代,又有人说“有视频有真相”,结果现在视频也可以AI生成了。最近美国巨星Taylor Swift就被深度伪造色情内容而引发舆论关注,X(原名“Twitter”)也被迫禁止用户对她名字的检索。“过于逼真的AI视频很有可能会造成假新闻泛滥,给新闻伦理和新闻治理带来巨大挑战。”邓建国表示,人工智能技术被用于多模态的内容生产(AIGC)可以降本增效,但同时也引入了深度伪造的风险。“新闻报道追求真实(facts),而Sora全是虚拟(fictional),因此它从本质上对新闻业只有坏处没有好处。我想,它唯一可以被新闻业利用的也许是建构在新闻事实基础上的情景再现。”“让事情更为棘手的是,从平台算法开始到现在的人工智能,由于涉及到海量数据、极为复杂的算法,以及众多用户与ChatGPT及Sora的个性化互动,即使是人工智能专家也无法精确预测和解释人工智能给出的每一个输出背后的原因,这给对AI的规制带来了前所未有的挑战。”邓建国表示,从文字开始,媒介技术就是生产复制品(化身、幻影、鬼魂)的工具,所以我们要从技术生产者、政策制定者、新闻媒体、教育机构和用户等多方面共同规制AIGC。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人