对于 OpenAI 发布的首个视频生成模型 Sora，2 月 16 日，周鸿祎在微博表示，这次很多人从技术上、从产品体验上分析

对于OpenAI发布的首个视频生成模型Sora，2月16日，周鸿祎在微博表示，这次很多人从技术上、从产品体验上分析Sora，实际这些都比较表象，最重要的是Sora的技术思路完全不一样。周鸿祎表示，这次OpenAl利用大语言模型优势，把LLM和Diffusion结合起来训练，让Sora实现了对现实世界的理解和对世界的模拟两层能力，这样产生的视频才是真实的，才能跳出2D的范围模拟真实的物理世界。这都是大模型的功劳。周鸿祎认为，OpenAl训练这个模型应该会阅读大量视频。一旦人工智能接上摄像头，把所有的电影都看一遍，把YouTube上和TikTok的视频都看一遍，对世界的理解将远远超过文字学习，一幅图胜过千言万语，而视频传递的信息量又远远超过一幅图，这就离AGI真的就不远了，不是10年20年的问题，可能一两年很快就可以实现。（全天候科技）

在Telegram中查看

相关推荐

【周鸿祎：Sora 意味着 AGI实现将从10年缩短到1年】

【周鸿祎：Sora意味着AGI实现将从10年缩短到1年】对于OpenAI发布的首个视频生成模型Sora，2月16日，周鸿祎在微博表示，这次很多人从技术上、从产品体验上分析Sora，实际这些都比较表象，最重要的是Sora的技术思路完全不一样。周鸿祎表示，这次OpenAl利用大语言模型优势，把LLM和Diffusion结合起来训练，让Sora实现了对现实世界的理解和对世界的模拟两层能力，这样产生的视频才是真实的，才能跳出2D的范围模拟真实的物理世界。这都是大模型的功劳。周鸿祎认为，OpenAl训练这个模型应该会阅读大量视频。一旦人工智能接上摄像头，把所有的电影都看一遍，把YouTube上和TikTok的视频都看一遍，对世界的理解将远远超过文字学习，一幅图胜过千言万语，而视频传递的信息量又远远超过一幅图，这就离AGI真的就不远了，不是10年20年的问题，可能一两年很快就可以实现。（全天候科技）

周鸿祎：Sora 意味着 AGI 实现将从 10 年缩短到 1 年

周鸿祎：Sora意味着AGI实现将从10年缩短到1年据证券时报，三六零周鸿祎认为，Sora意味着AGI实现将从10年缩短到1年。他分析说，OpenAI训练这个模型应该会阅读大量视频，大模型加上Diffusion技术需要对这个世界进行进一步了解，学习样本就会以视频和摄像头捕捉到的画面为主。一旦人工智能接上摄像头，把所有的电影都看一遍，把YouTube上和TikTok的视频都看一遍，对世界的理解将远远超过文字学习，一幅图胜过千言万语，而视频传递的信息量又远远超过一幅图，这就离AGI真的就不远了，不是10年20年的问题，可能一两年很快就可以实现。

OpenAI的Sora视频生成模型也能用来渲染游戏

OpenAI的Sora视频生成模型也能用来渲染视频游戏这篇题为《作为世界模拟器的视频生成模型》（Videogenerationmodelsasworldsimulators）的论文由多位OpenAI研究人员共同撰写，揭开了Sora架构关键方面的神秘面纱--例如，Sora可以生成任意分辨率和长宽比（最高1080p）的视频。根据论文所述，Sora能够执行一系列图像和视频编辑任务，从创建循环视频、向前或向后延伸视频到更改现有视频的背景。但最吸引笔者的还是Sora"模拟数字世界"的能力，OpenAI的合著者如是说。在一次实验中，OpenAI将Sora放到Minecraft上，让它在控制玩家的同时渲染世界及其动态（包括物理）。Sora在Minecraft中控制一名玩家，并渲染视频游戏世界，请注意，颗粒感是由视频到GIF的转换工具造成的，而不是Sora。图片来源：OpenAIOpenAI那么，Sora是如何做到这一点的呢？正如NVIDIA高级研究员JimFan（通过Quartz）所说，与其说Sora是一个创意引擎，不如说它是一个"数据驱动的物理引擎"。它不仅能生成单张照片或视频，还能确定环境中每个物体的物理特性，并根据这些计算结果渲染照片或视频（或交互式3D世界，视情况而定）。合著者写道："这些功能表明，继续扩展视频模型是开发物理和数字世界以及其中的物体、动物和人的高能力模拟器的一条大有可为的途径。"现在，Sora在视频游戏领域也有其通常的局限性。该模型无法准确模拟玻璃碎裂等基本互动的物理过程。即使在可以建模的互动中，Sora也经常出现不一致的情况，例如在渲染一个人吃汉堡时，却无法渲染汉堡上的咬痕。不过，如果我没看错的话，Sora似乎可以为更逼真（甚至可能是逼真）的程序生成游戏铺平道路。这既令人兴奋，又令人恐惧（考虑到Deepfake的影响）--这也许就是为什么OpenAI选择暂时将Sora关在一个非常有限的访问程序后面的原因。相关文章:OpenAI推出文本到视频人工智能模型SoraOpenAI首个视频生成模型发布能生成长达1分钟的高清视频...PC版：https://www.cnbeta.com.tw/articles/soft/1418461.htm手机版：https://m.cnbeta.com.tw/view/1418461.htm

周鸿祎称 Sora 工作原理像人做梦

周鸿祎称Sora工作原理像人做梦今日上午，360创始人、董事长周鸿祎发布视频分享自己对OpenAI最新的文生视频大模型Sora的见解，他写道：“Sora工作原理像人做梦，未来AGI比的就是算力和对世界的理解。”视频中，他讲到：“用传统计算机、图形学、影视工业特效的方法来重现一些画面的时候，我们喜欢的是3D件模型、建立光照、搞粒子模型、然后一帧一帧地渲染。这种方法实际上是效率非常低、耗费非常贵的。是用一种最笨的方法模拟出了这个世界。但Sora的方法非常像人类的做梦——我们会梦到各种奇奇怪怪的东西，做梦所产生的依据是我们在正常生活中眼睛看到的东西，这种积累的经验，是不需要3D建模然后一帧一帧渲染的。”他还把近期人们关注的Sora在视频中出现的Bug等比做人在做梦时同样会产生的幻觉等违背现实规律的情况。

周鸿祎称Sora生成视频堪比CG：未做3D建模只需文字就可逼真描绘

周鸿祎称Sora生成视频堪比CG：未做3D建模只需文字就可逼真描绘他认为，对比Pika和Runway是做不出这样效果的。Pika和Runbway实际上是基于图形图像本身的操作来进行生成。只是形成一种比较简单的计算机动画的效果。周鸿祎说：“即使是用常规呢计算机CG电影工业特效来看这三个画面，那也会非常难做，但是到了Sora这里，这些细节都会变得非常简单，只要给出一些文字的提示要求，就能逼真描绘出来”。他认为，Sora是没有做3D建模的。如果Sora也只是用3D建模再进行渲染，那么这和传统的电影工业走的是一样的路，这样就不具备颠覆性和革命性了。周鸿祎猜测Sora做到如此效果有三点原因：1、Sora模拟了人类观察、描绘、表现世界的方法。如果人类画师用笔画出来这三个场景，人类的大脑里不需要3D建模，因为人类对世界有基本认知。人类可以随意想象出自己要做的事，可以控制自己所想。2、Sora在学习的过程中，用了很多视频、电影的内容来作为训练输入。当输入一些画面，不仅要解读出画面的元素，还要解读出一些物理定律。openAI的论文中曾提到recaptioning技术，意思是对每一帧画面都能够用文字来描述。这点也正符合人类认知世界的方法。3、openAI产生了很多3D内容。不排除它用现在游戏引擎做了很多实时3D模型的渲染，再利用这些3D模型把更多的物理知识训练给Sora。周鸿祎表示，Sora是记录文生视频AIGC的工具，它反映了AI对世界的理解，是从文字进入图像，再从图像展示对这个世界3D模型的理解。...PC版：https://www.cnbeta.com.tw/articles/soft/1418931.htm手机版：https://m.cnbeta.com.tw/view/1418931.htm

关于Sora，觉得周鸿祎分享的观点讲的很好，尤其是第四点：

关于Sora，觉得周鸿祎分享的观点讲的很好，尤其是第四点：大语言模型最牛的是，它不是填空机，而是能完整地理解这个世界的知识。这次很多人从技术上、从产品体验上分析Sora，强调它能输出60秒视频，保持多镜头的一致性，模拟自然世界和物理规律，实际这些都比较表象，最重要的是Sora的技术思路完全不一样，因为这之前我们做视频做图用的都是Diffusion，你可以把视频看成是多个真实图片的组合，它并没有真正掌握这个世界的知识。现在所有的文生图、文生视频都是在2D平面上对图形元素进行操作，并没有适用物理定律。但Sora产生的视频里，它能像人一样理解坦克是有巨大冲击力的，坦克能撞毁汽车，而不会出现汽车撞毁坦克这样的情况。所以我理解这次OpenAl利用它的大语言模型优势，把LLM和Diffusion结合起来训练，让Sora实现了对现实世界的理解和对世界的模拟两层能力，这样产生的视频才是真实的，才能跳出2D的范围模拟真实的物理世界。这都是大模型的功劳。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人