OpenAI Sora：“原始版”世界模拟器我们离黑客帝国还有多远？

OpenAISora：“原始版”世界模拟器我们离黑客帝国还有多远？Sora：大力出奇迹的产物刚刚发布Gemini1.5Pro的谷歌，没有尝到半点甜头。刚刚官宣更新几个小时，OpenAI就拿着Sora来炸场，和Gemini有关的消息，基本都被埋在了铺天盖地的Sora新闻流里。据一些观察人士推测，OpenAI可能早在去年3月就已经完成了Sora的开发，所以才能在公关战中稳稳占据主动权。Sora到底优秀在哪里？简单来说，它是一个“大力出奇迹”的产物。Sora结合了扩散模型（DALL-E3）和转换器架构（ChatGPT）。通过这种组合，该模型可以像ChatGPT处理文本一样处理视频（即图像帧的时间序列）。最令人印象深刻的特点是它能够逼真地模拟物理世界（OpenAI将其描述为“新兴的模拟能力”）。在此之前，还没有任何文字视频模型能与之相媲美。例如，Sora“可以在单个生成的视频中创建多个镜头，准确地体现人物和视觉风格”。它可以制作长达1分钟的视频，但你也可以随心所欲地制作短视频。可以制作不同分辨率的竖版、方形和水平视频。而且计算量越高，视频质量也会越高。AI科学家、创业者贾佳亚在社交媒体上表示：Sora基于视频的三维结构分解压缩，用不同分辨率，不同时长，不同场景的各类视频大量训练diffusionmodel。在学术界连VIT的256*256的分辨率都没法改的情况下，Sora直接用上了高清以及更大的分辨率，这没几千上万张H100都不敢想象如何开始这个项目。Sora能够学习真实世界的物理规则OpenAI表示，Sora不仅能理解提示中出现的风格、场景、角色、物体和概念等，还能理解“这些事物在物理世界中是如何存在的”。Sora通过海量视频，以梯度下降的方式在神经参数中隐含地学习物理引擎。Sora是一个可学习的模拟器，或称“世界模型”。亦即，Sora可能已经学会了一套隐含的物理规则，为视频生成过程提供信息。毫无疑问，这是AI理解世界的关键一步。OpenAI在博文的最后写道：Sora是能够理解和模拟现实世界的模型的基础，我们相信这种能力将成为实现AGI的重要里程碑。在OpenAI的Dalle-3图像生成器所使用的扩散模型版本和GPT-4基于变换器的引擎的支持下，Sora不仅能按照提示要求制作视频，而且还能显示出对电影技术的熟练掌握。这就是讲故事的天赋。在另一部根据“渲染华丽的珊瑚礁纸艺世界，到处都是五颜六色的鱼和海洋生物”的提示制作的视频中。该项目的另一位研究员BillPeebles指出，Sora通过拍摄角度和时机的选择，创造了一种叙事的推动力：实际上有多个镜头的变化——这些变化不是拼接在一起的，而是由模型一次性生成的。我们没有告诉它要这么做，它只是自动这么做了。Sora不仅能根据文本制作图像和视频，或将图像和视频转换为其他视频，而且还能以通用、可扩展的方式完成这些工作，这一点与竞争对手不同。这种通用性和可扩展性促使人们预测人工智能将颠覆好莱坞和整个电影制作。考虑到进步的速度，想象一下几个月后人工智能模型能够制作出长达5或10分钟的多场景、多角色复杂视频并不是什么疯狂的事情。目前Sora还在接受安全检查和对抗性测试，没有正式发布。OpenAI希望从“世界各地的政策制定者、教育工作者和艺术家”那里收集反馈意见。他们还在开发一种检测分类器来识别Sora制作的视频，并研究如何防止错误信息。要想让文字视频威胁到真正的电影制作，恐怕还需要很长一段时间。你不可能把120个一分钟长的Sora片段拼接成一部连贯的电影，因为模型不会以完全相同的方式对提示做出反应，因此无法确保输出视频的连续性。但时间限制并不妨碍Sora和类似的软件颠覆TikTok、Reel和其他短视频平台的生产方法。一位研究者表示：要制作一部专业电影，你需要大量昂贵的设备，这种模式将使在社交媒体上制作视频的普通人有能力制作出非常高质量的内容。...PC版：https://www.cnbeta.com.tw/articles/soft/1418735.htm手机版：https://m.cnbeta.com.tw/view/1418735.htm

在Telegram中查看

相关推荐

OpenAI的Sora视频生成模型也能用来渲染游戏

OpenAI的Sora视频生成模型也能用来渲染视频游戏这篇题为《作为世界模拟器的视频生成模型》（Videogenerationmodelsasworldsimulators）的论文由多位OpenAI研究人员共同撰写，揭开了Sora架构关键方面的神秘面纱--例如，Sora可以生成任意分辨率和长宽比（最高1080p）的视频。根据论文所述，Sora能够执行一系列图像和视频编辑任务，从创建循环视频、向前或向后延伸视频到更改现有视频的背景。但最吸引笔者的还是Sora"模拟数字世界"的能力，OpenAI的合著者如是说。在一次实验中，OpenAI将Sora放到Minecraft上，让它在控制玩家的同时渲染世界及其动态（包括物理）。Sora在Minecraft中控制一名玩家，并渲染视频游戏世界，请注意，颗粒感是由视频到GIF的转换工具造成的，而不是Sora。图片来源：OpenAIOpenAI那么，Sora是如何做到这一点的呢？正如NVIDIA高级研究员JimFan（通过Quartz）所说，与其说Sora是一个创意引擎，不如说它是一个"数据驱动的物理引擎"。它不仅能生成单张照片或视频，还能确定环境中每个物体的物理特性，并根据这些计算结果渲染照片或视频（或交互式3D世界，视情况而定）。合著者写道："这些功能表明，继续扩展视频模型是开发物理和数字世界以及其中的物体、动物和人的高能力模拟器的一条大有可为的途径。"现在，Sora在视频游戏领域也有其通常的局限性。该模型无法准确模拟玻璃碎裂等基本互动的物理过程。即使在可以建模的互动中，Sora也经常出现不一致的情况，例如在渲染一个人吃汉堡时，却无法渲染汉堡上的咬痕。不过，如果我没看错的话，Sora似乎可以为更逼真（甚至可能是逼真）的程序生成游戏铺平道路。这既令人兴奋，又令人恐惧（考虑到Deepfake的影响）--这也许就是为什么OpenAI选择暂时将Sora关在一个非常有限的访问程序后面的原因。相关文章:OpenAI推出文本到视频人工智能模型SoraOpenAI首个视频生成模型发布能生成长达1分钟的高清视频...PC版：https://www.cnbeta.com.tw/articles/soft/1418461.htm手机版：https://m.cnbeta.com.tw/view/1418461.htm

OpenAI 发布文生视频模型 Sora

OpenAI发布文生视频模型Sora2月16日凌晨，OpenAI再次扔出一枚深水炸弹，发布了首个文生视频模型。Sora可以直接输出长达60秒的视频，并且包含高度细致的背景、复杂的多角度镜头，以及富有情感的多个角色。一位YouTube博主PaddyGalloway发表了对Sora的感想，他表示内容创作行业已经永远的改变了，并且毫不夸张。“我进入YouTube世界已经15年时间，但OpenAI刚刚的展示让我无言…动画师/3D艺术家们有麻烦了，素材网站将变得无关紧要，任何人都可以无壁垒获得难以置信的产品，内容背后的‘想法’和故事将变得更加重要。”但Sora模型当前也存在弱点。OpenAI称它可能难以准确模拟复杂场景的物理原理，并且可能无法理解因果关系。例如，一个人可能咬了一口饼干后，饼干会没有咬痕，玻璃破碎的物理过程可能也无法被准确呈现。频道：@kejiqu群组：@kejiquchat

OpenAI 推出文本到视频人工智能模型 Sora

OpenAI推出文本到视频人工智能模型Sora根据OpenAI的介绍博文，Sora能够创建"具有多个角色、特定运动类型以及主体和背景准确细节的复杂场景"。该公司还指出，该模型能够理解物体"在物理世界中的存在方式"，还能"准确解释道具并生成表达生动情感的引人注目的角色"。该模型还能根据静态图像生成视频，以及在现有视频中填充缺失的帧或扩展视频。OpenAI的博文中包含的Sora生成的演示包括淘金热时期加利福尼亚州的空中场景、从东京火车内部拍摄的视频等。许多演示都有人工智能的痕迹--比如在一段博物馆的视频中，地板疑似在移动。OpenAI表示，该模型"可能难以准确模拟复杂场景的物理现象"，但总体而言，演示结果令人印象深刻。几年前，像Midjourney这样的文本到图像生成器在模型将文字转化为图像的能力方面处于领先地位。但最近，视频技术开始飞速进步：Runway和Pika等公司都展示了自己令人印象深刻的文字转视频模型，而Google的Lumiere也将成为OpenAI在这一领域的主要竞争对手之一。与Sora类似，Lumiere也为用户提供了文字转换视频的工具，还能让用户通过静态图像创建视频。Sora目前只对"红队"人员开放，他们负责评估模型的潜在危害和风险。OpenAI还向一些视觉艺术家、设计师和电影制片人提供访问权限，以获得反馈意见。它指出，现有模型可能无法准确模拟复杂场景的物理现象，也可能无法正确解释某些因果关系。本月早些时候，OpenAI宣布将在其文本到图像工具DALL-E3中添加水印，但指出这些水印"很容易去除"。与其他人工智能产品一样，OpenAI将不得不面对人工智能逼真视频被误认为是真实视频的后果。...PC版：https://www.cnbeta.com.tw/articles/soft/1418385.htm手机版：https://m.cnbeta.com.tw/view/1418385.htm

Sora的局限性：

对sora比较深入的分析从电影和游戏行业的视角出发。指出了Sora在模拟物理现象和创意内容生成方面的局限性，也强调了其在多模态学习和生成能力上的潜力。以下是意见的总结：Sora的局限性：Sora虽然能够模拟物理现象，但其物理理解仍然脆弱，无法完全替代专业的物理引擎。在物体交互和物理规则的理解上存在不足，可能导致超现实的结果。Sora的生成内容依赖于大量数据的压缩和提炼，而非完全的物理模拟。Sora的创新与潜力：通过将视频内容压缩到隐空间，Sora有效地解决了处理高分辨率视频所需的计算资源问题。其技术可能影响实时影像资料的处理和分析，如直播和监控视频数据。Sora的应用可能为AI模型训练提供新路径，特别是在多模态数据和复杂现实世界情境的理解方面。对未来的展望：Sora技术的发展可能需要在提升算力和优化算法效率之间找到平衡。尽管Sora不会取代游戏引擎开发者或影视特效师，但它可以作为创意预览阶段的工具，帮助普通人进行民主化创作。Sora的多模态能力可能通过3D引擎模型进一步发展，为虚拟世界的构建提供自动化支持。这个见解强调AI在创意和模拟物理现象方面的潜力，同时也提醒我们AI技术仍有待发展，特别是在理解和模拟复杂物理世界方面。

汤姆猫：正在推进申请接入 OpenAI 的 Sora 模型

汤姆猫：正在推进申请接入OpenAI的Sora模型汤姆猫在互动平台表示，公司正在推进申请接入OpenAI的Sora模型，并计划进行相关的素材制作的测试，目前暂未正式接入Sora。在生成视频领域，公司已利用Pika、Runway、StableDiffusion等工具制作了部分视频素材，探索该等素材在营销、动画制作领域的应用。目前公司在文生视频技术上的应用仍在探索阶段，相关技术的应用现阶段未对公司业绩产生重大影响。

周鸿祎：推测 Sora 生成视频应没有靠 3D 建模训练而是模拟人类智能

周鸿祎：推测Sora生成视频应没有靠3D建模训练而是模拟人类智能在抖音个人直播间中，360创始人周鸿祎表示对OpenAI文生视频应用Sora的逼真效果十分惊讶。据其推测，Sora生成逼真的视频背后应该没有靠3D建模训练。如果Sora也只用3D建模再进行渲染，那么这和传统的电影工业走的是一样的路。他认为，Sora应该是模拟人类智能理解真实世界规律，掌握了人类观察、描绘、表现世界的方法。人类的大脑里不需要3D建模，因为人类对真实世界的物理规律有基本认知，可以控制自己所想。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人