关于Sora，觉得周鸿祎分享的观点讲的很好，尤其是第四点：

关于Sora，觉得周鸿祎分享的观点讲的很好，尤其是第四点：大语言模型最牛的是，它不是填空机，而是能完整地理解这个世界的知识。这次很多人从技术上、从产品体验上分析 Sora，强调它能输出 60 秒视频，保持多镜头的一致性，模拟自然世界和物理规律，实际这些都比较表象，最重要的是 Sora 的技术思路完全不一样，因为这之前我们做视频做图用的都是 Diffusion，你可以把视频看成是多个真实图片的组合，它并没有真正掌握这个世界的知识。现在所有的文生图、文生视频都是在 2D 平面上对图形元素进行操作，并没有适用物理定律。但 Sora 产生的视频里，它能像人一样理解坦克是有巨大冲击力的，坦克能撞毁汽车，而不会出现汽车撞毁坦克这样的情况。所以我理解这次 OpenAl 利用它的大语言模型优势，把LLM 和 Diffusion 结合起来训练，让 Sora 实现了对现实世界的理解和对世界的模拟两层能力，这样产生的视频才是真实的，才能跳出 2D 的范围模拟真实的物理世界。这都是大模型的功劳。

在Telegram中查看

相关推荐

周鸿祎谈Sora模型：中美AI差距可能还在加大

周鸿祎谈Sora模型：中美AI差距可能还在加大周鸿祎表示，AI不一定那么快颠覆所有行业，但它能激发更多人的创作力。今天 Sora 可能给广告业、电影预告片、短视频行业带来巨大的颠覆，但它不一定那么快击败 TikTok，更可能成为 TikTok的创作工具。同时，周鸿祎还谈到中美AI差距，他认为：OpenAl手里应该还藏着一些秘密武器，无论是 GPT-5，还是机器自我学习自动产生内容，包括 AIGC。他们手里的武器并没有全拿出来。这样看来中国跟美国的 AI 差距可能还在加大。以下为全文：Sora意味着 AGI实现将从10年缩短到1年年前我在风马牛演讲上分享了大模型十大趋势预测，没想到年还没过完，就验证了好几个从 Gemini、英伟达的 Chat With RTX到 OpenA!发布 Sora，大家都觉得很炸裂。朋友问我怎么看 Sora，我谈几个观点，总体来说就是我认为AGI很快会实现，就这几年的事儿了:第一，科技竞争最终比拼的是让人才密度和深厚积累。很多人说 Sora的效果吊打 Pika和Runway。这很正常，和创业者团队比OpenAl 这种有核心技术的公司实力还是非常强劲的。有人认为有了 AI以后创业公司只需要做个体户就行，实际今天再次证明这种想法是非常可笑的。第二，AI不一定那么快颠覆所有行业，但它能激发更多人的创作力。今天很多人谈到 Sora 对影视工业的打击，我倒不觉得是这样，因为机器能生产一个好视频，但视频的主题、脚本和分镜头策划、台词的配合，都需要人的创意至少需要人给提示词。一个视频或者电影是由无数个 60 秒组成的。今天 Sora 可能给广告业、电影预告片、短视频行业带来巨大的颠覆，但它不一定那么快击败 TikTok，更可能成为 TikTok的创作工具。第三，我一直说国内大模型发展水平表面看已经接近 GPT-3.5 了，但实际上跟 4.0 比还有一年半的差距。而且我相信 OpenAl手里应该还藏着一些秘密武器，无论是 GPT-5，还是机器自我学习自动产生内容，包括 AIGC。奥特曼是个营销大师，知道怎样掌握节奏，他们手里的武器并没有全拿出来。这样看来中国跟美国的 AI 差距可能还在加大。第四，大语言模型最牛的是，它不是填空机，而是能完整地理解这个世界的知识。这次很多人从技术上、从产品体验上分析Sora，强调它能输出 60 秒视频，保持多镜头的一致性，模拟自然世界和物理规律，实际这些都比较表象，最重要的是 Sora 的技术思路完全不一样。因为这之前我们做视频做图用的都是 Diffusion，你可以把视频看成是多个真实图片的组合，它并没有真正掌握这个世界的知识。现在所有的文生图、文生视频都是在 2D 平面上对图形元素进行操作，并没有适用物理定律。但 Sora 产生的视频里，它能像人一样理解坦克是有巨大冲击力的，坦克能撞毁汽车，而不会出现汽车撞毁坦克这样的情况。所以我理解这次 OpenAl 利用它的大语言模型优势，把LLM 和 Diffusion 结合起来训练，让 Sora 实现了对现实世界的理解和对世界的模拟两层能力，这样产生的视频才是真实的，才能跳出 2D 的范围模拟真实的物理世界。这都是大模型的功劳。这也代表未来的方向。有强劲的大模型做底子，基于对人类语言的理解，对人类知识和世界模型的了解，再叠加很多其他的技术，就可以创造各个领域的超级工具，比如生物医学蛋白质和基因研究，包括物理、化学、数学的学科研究上，大模型都会发挥作用。这次 Sora对物理世界的模拟，至少将会对机器人具身智能和自动驾驶带来巨大的影响。原来的自动驾驶技术过度强调感知层面，而没有工作在认知层面。其实人在驾驶汽车的时候，很多判断是基于对这个世界的理解。比如对方的速度怎么样，能否发生碰撞，碰撞严重性如何，如果没有对世界的理解就很难做出一个真正的无人驾驶。所以这次 Sora 只是小试牛刀，它展现的不仅仅是一个视频制作的能力，它展现的是大模型对真实世界有了理解和模拟之后，会带来新的成果和突破。第五，Open Al训练这个模型应该会阅读大量视频。大模型加上 Diffusion 技术需要对这个世界进行进一步了解，学习样本就会以视频和摄像头捕捉到的画面为主。一旦人工智能接上摄像头，把所有的电影都看一遍，把YouTube 上和 TikTok 的视频都看一遍，对世界的理解将远远超过文字学习，一幅图胜过千言万语，而视频传递的信息量又远远超过一幅图，这就离AGI真的就不远了，不是10年20年的问题，可能一两年很快就可以实现。 ... PC版：手机版：

周鸿祎称Sora生成视频堪比CG：未做3D建模只需文字就可逼真描绘

周鸿祎称Sora生成视频堪比CG：未做3D建模只需文字就可逼真描绘他认为，对比Pika和Runway是做不出这样效果的。Pika和Runbway实际上是基于图形图像本身的操作来进行生成。只是形成一种比较简单的计算机动画的效果。周鸿祎说：“即使是用常规呢计算机CG电影工业特效来看这三个画面，那也会非常难做，但是到了Sora这里，这些细节都会变得非常简单，只要给出一些文字的提示要求，就能逼真描绘出来”。他认为，Sora是没有做3D建模的。如果Sora也只是用3D建模再进行渲染，那么这和传统的电影工业走的是一样的路，这样就不具备颠覆性和革命性了。周鸿祎猜测Sora做到如此效果有三点原因：1、Sora模拟了人类观察、描绘、表现世界的方法。如果人类画师用笔画出来这三个场景，人类的大脑里不需要3D建模，因为人类对世界有基本认知。人类可以随意想象出自己要做的事，可以控制自己所想。2、Sora在学习的过程中，用了很多视频、电影的内容来作为训练输入。当输入一些画面，不仅要解读出画面的元素，还要解读出一些物理定律。openAI的论文中曾提到recaptioning技术，意思是对每一帧画面都能够用文字来描述。这点也正符合人类认知世界的方法。3、openAI产生了很多3D内容。不排除它用现在游戏引擎做了很多实时3D模型的渲染，再利用这些3D模型把更多的物理知识训练给Sora。周鸿祎表示，Sora是记录文生视频AIGC的工具，它反映了AI对世界的理解，是从文字进入图像，再从图像展示对这个世界3D模型的理解。 ... PC版：手机版：

对sora比较深入的分析

对sora比较深入的分析从电影和游戏行业的视角出发。指出了Sora在模拟物理现象和创意内容生成方面的局限性，也强调了其在多模态学习和生成能力上的潜力。以下是意见的总结： Sora的局限性： Sora虽然能够模拟物理现象，但其物理理解仍然脆弱，无法完全替代专业的物理引擎。在物体交互和物理规则的理解上存在不足，可能导致超现实的结果。 Sora的生成内容依赖于大量数据的压缩和提炼，而非完全的物理模拟。 Sora的创新与潜力：通过将视频内容压缩到隐空间，Sora有效地解决了处理高分辨率视频所需的计算资源问题。其技术可能影响实时影像资料的处理和分析，如直播和监控视频数据。 Sora的应用可能为AI模型训练提供新路径，特别是在多模态数据和复杂现实世界情境的理解方面。对未来的展望： Sora技术的发展可能需要在提升算力和优化算法效率之间找到平衡。尽管Sora不会取代游戏引擎开发者或影视特效师，但它可以作为创意预览阶段的工具，帮助普通人进行民主化创作。 Sora的多模态能力可能通过3D引擎模型进一步发展，为虚拟世界的构建提供自动化支持。这个见解强调AI在创意和模拟物理现象方面的潜力，同时也提醒我们AI技术仍有待发展，特别是在理解和模拟复杂物理世界方面。

OpenAI 发布文生视频模型 Sora

OpenAI 发布文生视频模型 Sora 2月16日凌晨，OpenAI再次扔出一枚深水炸弹，发布了首个文生视频模型。Sora可以直接输出长达60秒的视频，并且包含高度细致的背景、复杂的多角度镜头，以及富有情感的多个角色。一位YouTube博主Paddy Galloway发表了对Sora的感想，他表示内容创作行业已经永远的改变了，并且毫不夸张。“我进入YouTube世界已经15年时间，但OpenAI刚刚的展示让我无言…动画师/3D艺术家们有麻烦了，素材网站将变得无关紧要，任何人都可以无壁垒获得难以置信的产品，内容背后的‘想法’和故事将变得更加重要。” 但Sora模型当前也存在弱点。OpenAI称它可能难以准确模拟复杂场景的物理原理，并且可能无法理解因果关系。例如，一个人可能咬了一口饼干后，饼干会没有咬痕，玻璃破碎的物理过程可能也无法被准确呈现。频道：@kejiqu 群组：@kejiquchat

重磅： Open AI 正式推出文生视频模型 Sora

重磅： Open AI 正式推出文生视频模型 Sora 名为Sora 视频模型突然降临，Open AI 目前提供的情报，所揭示的一些惊人能力： - Sora 根据用户提示可以生成长达一分钟的视频，同时保持视觉质量。（在这部电影预告片的提示词，非常简介：讲述 30 岁的太空人头戴红色羊毛针织摩托车头盔的冒险故事，蓝天、盐碱沙漠、电影风格、35 毫米胶片拍摄、色彩鲜明。） - Sora 能够生成包含多个角色、特定运动类型以及主体和背景准确细节的复杂场景。 - Sora 将理解你。这意味着和Dall·E 3有着类似的体验，它具有非凡的语言理解力。 - Sora 还能理解这些事物在物理世界中是如何存在的；换句话说，Sora 理解关于世界如何通过知识和规律进行表征，这可能是重大突破之一。（Hans注，这并不代表它是完美理解世界） - Sora 还能在单个生成的视频中创建多个镜头，准确地体现角色和视觉风格。 - Sora 是一种采取了Transformer架构的扩散模型，不仅能生成还能延长，让模型一次性预测多帧画面，确保主体一致性。 - 更多官方案例参考安全方面的声明和步骤： Open A 正在与红队人员（错误信息、仇恨内容和偏见等领域的专家）合作，他们将对模型进行对抗性测试。还在开发一些工具来帮助检测误导性内容，例如检测分类器，它可以分辨出视频是由 Sora 生成的。 Open AI相信，从现实世界的使用中学习，是随着时间的推移创建和发布越来越安全的人工智能系统的重要组成部分。 Text 2 Video 的生态位差不多在去年这个时候，Runway 所引爆的 Text 2 Video相关的生态位开启了重构好莱坞的想象空间。不到一年 Sora 的横空出生，其必将带来难以想像的变革力量。这是山峰再一次的快速攀升。从多模态的深远意义来说，我强烈意识到 Open AI 描述的野心：「Sora 是能够理解和模拟现实世界的模型的基础，我们相信这种能力将是实现 AGI 的重要里程碑。」 Invalid media:

OpenAI的Sora视频生成模型也能用来渲染游戏

OpenAI的Sora视频生成模型也能用来渲染视频游戏这篇题为《作为世界模拟器的视频生成模型》（Video generation models as world simulators）的论文由多位 OpenAI 研究人员共同撰写，揭开了 Sora 架构关键方面的神秘面纱例如，Sora 可以生成任意分辨率和长宽比（最高 1080p）的视频。根据论文所述，Sora 能够执行一系列图像和视频编辑任务，从创建循环视频、向前或向后延伸视频到更改现有视频的背景。但最吸引笔者的还是 Sora"模拟数字世界"的能力，OpenAI 的合著者如是说。在一次实验中，OpenAI 将 Sora 放到 Minecraft 上，让它在控制玩家的同时渲染世界及其动态（包括物理）。Sora 在 Minecraft 中控制一名玩家，并渲染视频游戏世界，请注意，颗粒感是由视频到 GIF 的转换工具造成的，而不是 Sora。图片来源：OpenAIOpenAI那么，Sora 是如何做到这一点的呢？正如 NVIDIA 高级研究员 Jim Fan（通过 Quartz）所说，与其说 Sora 是一个创意引擎，不如说它是一个"数据驱动的物理引擎"。它不仅能生成单张照片或视频，还能确定环境中每个物体的物理特性，并根据这些计算结果渲染照片或视频（或交互式 3D 世界，视情况而定）。合著者写道："这些功能表明，继续扩展视频模型是开发物理和数字世界以及其中的物体、动物和人的高能力模拟器的一条大有可为的途径。"现在，Sora在视频游戏领域也有其通常的局限性。该模型无法准确模拟玻璃碎裂等基本互动的物理过程。即使在可以建模的互动中，Sora 也经常出现不一致的情况，例如在渲染一个人吃汉堡时，却无法渲染汉堡上的咬痕。不过，如果我没看错的话，Sora 似乎可以为更逼真（甚至可能是逼真）的程序生成游戏铺平道路。这既令人兴奋，又令人恐惧（考虑到Deepfake的影响）这也许就是为什么 OpenAI 选择暂时将 Sora 关在一个非常有限的访问程序后面的原因。相关文章:OpenAI 推出文本到视频人工智能模型 SoraOpenAI首个视频生成模型发布能生成长达1分钟的高清视频 ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人