鉴于我们团队从去年开始就在做【世界模型(worldmodel)我必须要坚决地站在Yann 佬这边地指出OpenAI的Sora根
鉴于我们团队从去年开始就在做【世界模型(worldmodel)我必须要坚决地站在Yann佬这边地指出OpenAI的Sora根本不是世界模型,甚至除了都属于图像领域模型以外没有半毛钱关系。事实上,人家openAI从未在任何官方宣传资料上使用过【世界模型(英文:worldmodel)】这个名词来宣传sora,关于sora和世界模型的关系基本来自于翻译的误读、部分人群的颅内高潮外加营销号的刻意造势。【世界模型】的定义并不在于它生成的东西能不能像一个世界。一个模型如果能够被认定为【世界模型】它必须要向人们证明:其模型的预测结果可以随着环境中的主动交互进行变化,且这种变化还需要符合正确且统一的物理规律。(即图1中action的影响部分)也正因为如此,【世界模型】才可以被应用到训练、测试和端到端的决策系统上。从sora的技术方案中可看出(图2),sora的生成行为为:一次性生成视频而非不断地生成单帧图片。这意味着:sora生成的视频内容无法在其生成过程中被影响。sora的生成行为从技术本质上来说是:一次生成=一个完整的视频。(抽一次卡一个视频),而基于【世界模型】的文生视频模型需要能够让你看到这个视频在时间线上的生成过程并且你还能够在这个过程没有走到结束的时候影响它的结果。举个,如果你让sora生成一个:林克在草丛中奔跑,它也许能很好的完成任务,比如模仿出塞尔达的场景,让一个穿着英杰服拿着大师剑的林克在草丛中奔跑,也许它还能更好比如能转个弯跳一下。但是如果它是【世界模型】的话,你可以随时按照你的需要改变他奔跑的轨迹,甚至让他停下来,就像在玩游戏一样。sora当然做不到这些甚至连物理规律都没学好如果还有人告诉你它是世界模型,那么要么它就不该是你收集信息的信息源了,要么ta想骗你点什么。