周鸿祎谈Sora模型：中美AI差距可能还在加大

周鸿祎谈Sora模型：中美AI差距可能还在加大周鸿祎表示，AI不一定那么快颠覆所有行业，但它能激发更多人的创作力。今天 Sora 可能给广告业、电影预告片、短视频行业带来巨大的颠覆，但它不一定那么快击败 TikTok，更可能成为 TikTok的创作工具。同时，周鸿祎还谈到中美AI差距，他认为：OpenAl手里应该还藏着一些秘密武器，无论是 GPT-5，还是机器自我学习自动产生内容，包括 AIGC。他们手里的武器并没有全拿出来。这样看来中国跟美国的 AI 差距可能还在加大。以下为全文：Sora意味着 AGI实现将从10年缩短到1年年前我在风马牛演讲上分享了大模型十大趋势预测，没想到年还没过完，就验证了好几个从 Gemini、英伟达的 Chat With RTX到 OpenA!发布 Sora，大家都觉得很炸裂。朋友问我怎么看 Sora，我谈几个观点，总体来说就是我认为AGI很快会实现，就这几年的事儿了:第一，科技竞争最终比拼的是让人才密度和深厚积累。很多人说 Sora的效果吊打 Pika和Runway。这很正常，和创业者团队比OpenAl 这种有核心技术的公司实力还是非常强劲的。有人认为有了 AI以后创业公司只需要做个体户就行，实际今天再次证明这种想法是非常可笑的。第二，AI不一定那么快颠覆所有行业，但它能激发更多人的创作力。今天很多人谈到 Sora 对影视工业的打击，我倒不觉得是这样，因为机器能生产一个好视频，但视频的主题、脚本和分镜头策划、台词的配合，都需要人的创意至少需要人给提示词。一个视频或者电影是由无数个 60 秒组成的。今天 Sora 可能给广告业、电影预告片、短视频行业带来巨大的颠覆，但它不一定那么快击败 TikTok，更可能成为 TikTok的创作工具。第三，我一直说国内大模型发展水平表面看已经接近 GPT-3.5 了，但实际上跟 4.0 比还有一年半的差距。而且我相信 OpenAl手里应该还藏着一些秘密武器，无论是 GPT-5，还是机器自我学习自动产生内容，包括 AIGC。奥特曼是个营销大师，知道怎样掌握节奏，他们手里的武器并没有全拿出来。这样看来中国跟美国的 AI 差距可能还在加大。第四，大语言模型最牛的是，它不是填空机，而是能完整地理解这个世界的知识。这次很多人从技术上、从产品体验上分析Sora，强调它能输出 60 秒视频，保持多镜头的一致性，模拟自然世界和物理规律，实际这些都比较表象，最重要的是 Sora 的技术思路完全不一样。因为这之前我们做视频做图用的都是 Diffusion，你可以把视频看成是多个真实图片的组合，它并没有真正掌握这个世界的知识。现在所有的文生图、文生视频都是在 2D 平面上对图形元素进行操作，并没有适用物理定律。但 Sora 产生的视频里，它能像人一样理解坦克是有巨大冲击力的，坦克能撞毁汽车，而不会出现汽车撞毁坦克这样的情况。所以我理解这次 OpenAl 利用它的大语言模型优势，把LLM 和 Diffusion 结合起来训练，让 Sora 实现了对现实世界的理解和对世界的模拟两层能力，这样产生的视频才是真实的，才能跳出 2D 的范围模拟真实的物理世界。这都是大模型的功劳。这也代表未来的方向。有强劲的大模型做底子，基于对人类语言的理解，对人类知识和世界模型的了解，再叠加很多其他的技术，就可以创造各个领域的超级工具，比如生物医学蛋白质和基因研究，包括物理、化学、数学的学科研究上，大模型都会发挥作用。这次 Sora对物理世界的模拟，至少将会对机器人具身智能和自动驾驶带来巨大的影响。原来的自动驾驶技术过度强调感知层面，而没有工作在认知层面。其实人在驾驶汽车的时候，很多判断是基于对这个世界的理解。比如对方的速度怎么样，能否发生碰撞，碰撞严重性如何，如果没有对世界的理解就很难做出一个真正的无人驾驶。所以这次 Sora 只是小试牛刀，它展现的不仅仅是一个视频制作的能力，它展现的是大模型对真实世界有了理解和模拟之后，会带来新的成果和突破。第五，Open Al训练这个模型应该会阅读大量视频。大模型加上 Diffusion 技术需要对这个世界进行进一步了解，学习样本就会以视频和摄像头捕捉到的画面为主。一旦人工智能接上摄像头，把所有的电影都看一遍，把YouTube 上和 TikTok 的视频都看一遍，对世界的理解将远远超过文字学习，一幅图胜过千言万语，而视频传递的信息量又远远超过一幅图，这就离AGI真的就不远了，不是10年20年的问题，可能一两年很快就可以实现。 ... PC版：手机版：

在Telegram中查看

相关推荐

周鸿祎谈视频模型Sora：未必短期能击败TikTok，但中美AI差距将进一步拉大

周鸿祎谈视频模型Sora：未必短期能击败TikTok，但中美AI差距将进一步拉大据新浪科技，360董事长周鸿祎谈到了人工智能企业OpenAI今天发布的文字转视频模型Sora。周鸿祎表示，Sora对短视频行业有巨大的颠覆，但未必能那么快击败TikTok，更多是创作力工具。此外，他认为，中美两国的人工智能差距在拉大。来源：格隆汇

关于Sora，觉得周鸿祎分享的观点讲的很好，尤其是第四点：

关于Sora，觉得周鸿祎分享的观点讲的很好，尤其是第四点：大语言模型最牛的是，它不是填空机，而是能完整地理解这个世界的知识。这次很多人从技术上、从产品体验上分析 Sora，强调它能输出 60 秒视频，保持多镜头的一致性，模拟自然世界和物理规律，实际这些都比较表象，最重要的是 Sora 的技术思路完全不一样，因为这之前我们做视频做图用的都是 Diffusion，你可以把视频看成是多个真实图片的组合，它并没有真正掌握这个世界的知识。现在所有的文生图、文生视频都是在 2D 平面上对图形元素进行操作，并没有适用物理定律。但 Sora 产生的视频里，它能像人一样理解坦克是有巨大冲击力的，坦克能撞毁汽车，而不会出现汽车撞毁坦克这样的情况。所以我理解这次 OpenAl 利用它的大语言模型优势，把LLM 和 Diffusion 结合起来训练，让 Sora 实现了对现实世界的理解和对世界的模拟两层能力，这样产生的视频才是真实的，才能跳出 2D 的范围模拟真实的物理世界。这都是大模型的功劳。

重磅： Open AI 正式推出文生视频模型 Sora

重磅： Open AI 正式推出文生视频模型 Sora 名为Sora 视频模型突然降临，Open AI 目前提供的情报，所揭示的一些惊人能力： - Sora 根据用户提示可以生成长达一分钟的视频，同时保持视觉质量。（在这部电影预告片的提示词，非常简介：讲述 30 岁的太空人头戴红色羊毛针织摩托车头盔的冒险故事，蓝天、盐碱沙漠、电影风格、35 毫米胶片拍摄、色彩鲜明。） - Sora 能够生成包含多个角色、特定运动类型以及主体和背景准确细节的复杂场景。 - Sora 将理解你。这意味着和Dall·E 3有着类似的体验，它具有非凡的语言理解力。 - Sora 还能理解这些事物在物理世界中是如何存在的；换句话说，Sora 理解关于世界如何通过知识和规律进行表征，这可能是重大突破之一。（Hans注，这并不代表它是完美理解世界） - Sora 还能在单个生成的视频中创建多个镜头，准确地体现角色和视觉风格。 - Sora 是一种采取了Transformer架构的扩散模型，不仅能生成还能延长，让模型一次性预测多帧画面，确保主体一致性。 - 更多官方案例参考安全方面的声明和步骤： Open A 正在与红队人员（错误信息、仇恨内容和偏见等领域的专家）合作，他们将对模型进行对抗性测试。还在开发一些工具来帮助检测误导性内容，例如检测分类器，它可以分辨出视频是由 Sora 生成的。 Open AI相信，从现实世界的使用中学习，是随着时间的推移创建和发布越来越安全的人工智能系统的重要组成部分。 Text 2 Video 的生态位差不多在去年这个时候，Runway 所引爆的 Text 2 Video相关的生态位开启了重构好莱坞的想象空间。不到一年 Sora 的横空出生，其必将带来难以想像的变革力量。这是山峰再一次的快速攀升。从多模态的深远意义来说，我强烈意识到 Open AI 描述的野心：「Sora 是能够理解和模拟现实世界的模型的基础，我们相信这种能力将是实现 AGI 的重要里程碑。」 Invalid media:

周鸿祎将推出免费AI培训课程:李一舟不该收费

周鸿祎将推出免费AI培训课程:李一舟不该收费 “李一舟最大的问题是不该对相关课程收费，应该免费”，周鸿祎直言。同时他还透露，自己将推出免费的AI培训课程，为用户做更多的AI科普。根据此前报道，李一舟自称是“清华博士”的大V，其推出的199元AI课程，已在短视频平台上吸引到上百万的粉丝。有数据显示，李一舟售卖的AI课名为《每个人的人工智能课》，一年内卖出约25万套，销售额约5000万。此消息一出就登上热搜，网友的评论褒贬不一。而此次周鸿祎直接表态“李一舟不该收费”，也证明他对此事持反对意见。实际上，周鸿祎对AI有很多自己的理解。他在个人微博上不止一次谈到AI，尤其是近期很火的Sora模型。据悉，Sora是美国人工智能研究公司OpenAI发布的人工智能文生视频大模型，可以根据用户的文本提示创建最长60秒的逼真视频，能理解用户在提示中提出的要求。他认为Sora模型意味着 AGI将实现从10年缩短到1年。AI不一定那么快颠覆所有行业，但它能激发更多人的创作力。此外他还强调，今天Sora可能给广告业、电影预告片、短视频行业带来巨大的颠覆，但它不一定那么快击败TikTok，更可能成为TikTok的创作工具。由此可见，周鸿祎若真推出AI课程，或许会为用户普及到更多的AI知识。 ... PC版：手机版：

周鸿祎称Sora生成视频堪比CG：未做3D建模只需文字就可逼真描绘

周鸿祎称Sora生成视频堪比CG：未做3D建模只需文字就可逼真描绘他认为，对比Pika和Runway是做不出这样效果的。Pika和Runbway实际上是基于图形图像本身的操作来进行生成。只是形成一种比较简单的计算机动画的效果。周鸿祎说：“即使是用常规呢计算机CG电影工业特效来看这三个画面，那也会非常难做，但是到了Sora这里，这些细节都会变得非常简单，只要给出一些文字的提示要求，就能逼真描绘出来”。他认为，Sora是没有做3D建模的。如果Sora也只是用3D建模再进行渲染，那么这和传统的电影工业走的是一样的路，这样就不具备颠覆性和革命性了。周鸿祎猜测Sora做到如此效果有三点原因：1、Sora模拟了人类观察、描绘、表现世界的方法。如果人类画师用笔画出来这三个场景，人类的大脑里不需要3D建模，因为人类对世界有基本认知。人类可以随意想象出自己要做的事，可以控制自己所想。2、Sora在学习的过程中，用了很多视频、电影的内容来作为训练输入。当输入一些画面，不仅要解读出画面的元素，还要解读出一些物理定律。openAI的论文中曾提到recaptioning技术，意思是对每一帧画面都能够用文字来描述。这点也正符合人类认知世界的方法。3、openAI产生了很多3D内容。不排除它用现在游戏引擎做了很多实时3D模型的渲染，再利用这些3D模型把更多的物理知识训练给Sora。周鸿祎表示，Sora是记录文生视频AIGC的工具，它反映了AI对世界的理解，是从文字进入图像，再从图像展示对这个世界3D模型的理解。 ... PC版：手机版：

【周鸿祎关于大模型的2023年100条语录】

【周鸿祎关于大模型的2023年100条语录】 1、2024大模型发展四大预测：大模型不会垄断，不会成为操作系统，将会无处不在。不像操作系统全世界就那么几套；大模型一方面追求“大”，另一方面也会追求“小”，汽车上可能会部署出来更多的大模型；多模态将成为国产大模型的标配；国内会出现很多垂直大模型，走进百行千业，向产业化方向发展。 2、不要高估大模型现在的能力，也不要低估大模型未来的潜力。 3、建立 AI 信仰：相信 Al是真 Al、相信Al是工业革命级技术、相信 AI将重塑所有业务、相信不拥抱AI的公司和个人都将被淘汰。 4、All in AI 要思考的三个问题：对上对下一一组织内部所有人是否都在用AI？对内一内部业务流程被改造会怎么样？对外一一产品和服务被AI加持会怎么样？ 5、未来衡量公司前景要看“含 AI量”：业务中有多少环节被 AI 优化、被 AI 赋能、被AI改造。 6、我是做安全出身的，本来应该是最悲观的人，因为我们看到的往往都是技术带来的负面效应。但在大模型这件事上，我是坚定的发展派。 7、中国不发展大模型才是最大的不安全，虽仍存差距，中国大模型发展速度已是奇迹。 8、大模型不是风口和泡沫。即使是风口，也得吹五年到十年。对创业者来说，还有十年红利期。 9、场景红利是中国大模型弯道超车的关键，大模型真正的机会是结合场景发展垂直大模型。 10、大模型现在还很「高大上」，要把它拉下神坛，真正的走进千家万户，影响百行干业，这才是大模型引发工业革命的道路。 11、大模型的未来不会成为操作系统，而是会成为个人电脑，成为数字化系统的标配。 12、未来大模型在中国的发展之路：不会有垄断，不会只有3-5个大模型，大模型将无处不在。 13、开源就像是 AK47：价格便宜，火力足，分量够，能够实现「科技平权」。 14、大模型领域，巨头一定会用全家桶的思路，把自己的全家桶产品装上它们的大模型。用户会就近使用，所以存量市场在未来很难有大的改变。 15、80% 去中心化的企业级市场，蕴含着巨大的机会。 16、大模型能产生知识模糊、制造知识幻觉，可以看成创造力的展现。在此之前，世界上所有的动物只有人类会瞎编。 17、国家大战略是产业数字化。互联网企业要甘当配角，顺势而为，把数字化能力和大模型能力赋能传统企业，特别是制造业，帮助他们实现数字化、智能化。 18、行业大模型可能是一个幻觉。不会出现公有服务的行业大模型，但很多企业仍然会做私有的行业大模型。 19、垂直大模型是创业者的金光大道。 20、在企业里面做大模型，要忘掉 ChatGPT 这个榜样。 21、大模型的六个垂直的趋势：行业垂直化、企业垂直化、专业垂直化、小型垂直化、分布式垂直化、专有垂直化。 22、把大模型看低一点，就是企业业务系统的智能化的升级。企业业务系统分成很多垂直的部分，大模型也应该做到专业垂直。 23、企业里不一定需要GPT4 这样的全才、通才或者天才，而是需要有垂直领域经验和技能的人才，这就是垂直模型要干的事情。 24、（创业者）不要等到大模型无所不能才开始做，只要想清楚了产品应用的场景，现在就能做。 25、大模型创业要快速行动，first move，just do it。 26、大模型最常用的功能只有两个：知识问答、写作生成。应该先把大模型这两个功能找到各种细化的垂直场景应用。 27、大模型不是万能的，很多业务系统是不能被取代的。创业者千万不要介入旧系统的改造之中，陷入其中可能长期无法交付。 28、大模型要跟现有的系统做一定的隔离，尽量少发生 API，函数调用的联系。 29、人工智能应当作为副驾驶，不要让它来做出不可撤销的决定。 30、坚持 AI 普惠的原则，大模型发展要以人为本。 31、做大模型的创业，不要给企业宣扬有了这个东西就会裁员。 32、能用程序解决的问题千万不要用自然语言去解决问题。不要去迷信 LUI，未来 CUI、GUI将成为主流。 33、构建企业级大模型，应该遵循安全、向普、可信、可控。 34、永远让人在决策的回路上，而不能让大模型决策。 35、大模型技术的三大发展方向：机器人、自动驾驶、科学研究。 36、大模型是工业革命级别的技术创新，美国AIlin Al，正掀起一轮新的产业革命。 37、大模型企业级场景应用要炼就“九阳神功”一：私有化部署千亿通用大模型。二：AI生产力工具集。三：个性化定制数字员工。四：数据工厂、知识工厂、模型工厂。五：基础大模型。六：训练垂直模型。七：智能体工场。八：业务连接与协作平台。九：全面AI化。 38、做大模型要坚持长期主义，肩负起担当，保持理想主义。 39、绝大多数人这辈子的使命是用好 Al，而不是做Al。 40、数字人最重要的是能够有自己的人设，最后能够自主学习，能够连接外围系统。 41、未来的数字人不是简单的对口型的形象，也不是简单的念稿的机器，而是能够真正跟每个人进行对话、交流，进行帮助、讨论。 42、不是只有当老板才有助理。我们做人工智能，最重要的是让每个人都可以有一堆 AI 助理为自己所用。 43、每个企业员工都可以有自己的数字专家、数字助手。 44、数字永生这个概念离我们并不遇远，我们可能模拟出来一个伊隆，马斯克，一个爱因斯坦，一个周鸿祎，数字人模拟他们的说话口吻、思维方式、知识和积累，使得我们可以跟他们去交流。 45、数字人可以让我们换一种读书的方式，不是死读书，而是直接和书里的人产生交流。 46、人工智能不是新物种，是新工具。 47、怎么保证大模型不说错话，训练另外一个大模型来训练这个大模型，这不是个笑话。 48、中国已经进入“百模大战”，各家做大模型基础能力都差不多，比拼的是谁对普通人来说更好用。 49、大模型发展 3个月，相当于历史上的技术发展30年。 50、大模型不会造成大规模失业，反而提升效率。 51、通用技术才能引发工业革命，像水电一样输送到办公E族。 52、大模型价值不仅仅在于使用量，在于未来把 AI能力通用化、泛化、垂直化。 53、未来在职场上，熟练掌握 AI 有时候要比职场经验更有优势。 54、大模型能让小白变成专家，能帮助一个普通的坏蛋写出出色的钓鱼软件，与此同时也能扮演“正义助手”。 55、我们不能把大模型当作黑盒子，了解工作原理，才能从根本上解决安全问题。 56、AI 进化应该以人为本，大模型应该成为人类的朋友和助手。 57、大模型不是玩具，不是搜索引擎、不是聊天机器人、这些都是它亲民推广的伪装，背后强大的超级大脑代表着超级人工智能时代的来临。 58、大模型出来前，所有自动驾驶都只是辅助驾驶。 59、只有有了多模态全面的能力，才预示着大模型真正地走上一个新的台阶。 60、谁真正通过大模型把人类的语言做了重新的编码、学习、训练，也就对人类掌握的知识有了一个重新的压缩和蒸馏。 61、GPT 的模型、算法、路线是已知的，但是出现很多现象 OpenAI 的人也没法解释，比如智力的突变，语言及逻辑的迁移，像是从猿到人的变化。 62、大模型帮我们解锁了很多原来只有专业人士才能解锁的技能，比如写代码、绘画，让有才华但缺乏专业训练的人也可以发挥自己才华。 63、超级人工智能不应该先解决娱乐问题，应该反向解决常温超导和可控核聚变问题，帮助人类实现能源自由。 64、搜索不会犯错，是因为搜索不智能，真正的人工智能一定会犯错，它的错误来自海量知识在推理过程中产生的突变。 65、在大模型面前，人类自认为独有的特质不存在了：想象力、创造力。 66、不必质疑大模型的创作是模仿和借鉴，人类写东西哪个不是模仿和借鉴呢？ 67、我们老说眼见为实，耳听为虚。现在来看，未来互联网上大量的内容会不会都是AI生成的？所以希望大家正确地使用文生视频能力。 68、数字人是未来人工智能大模型对我们每个人和对每个企业来说最合适的入口。 69、未来，有不同人设，不同经历，不同角色的数字人可以在人工智能驱动下，一起来帮人们做脑力激荡，完成共同的目标。 70、未来数字人会继续迭代，调用大模型的能力。拥有大模型不具备的长期记忆力。同时，数字人可以有自己的目标、规划和分解能力，使得它可以不断地调用各种垂直的模型完成任务。 71、未来人工智能的发展不仅仅是大模型核心能力的增加，外部功能的包装，人工智能跟每个人的工作、生活贴得更近，每个人能更自如地使用人工智能。 72、大模型会一本正经胡说八道，恰是大模型真正智能的体现，也是最可怕的地方。因为人才会犯错误，才会胡编乱造，能描绘不存在的东西。 73、大模型的训练过程分成三层：知识铺垫、基于人工反馈的强化学习、价值观的校正纠偏，很像一个小孩从小到大学习的过程。 74、用人类聊天素材训练出来的机器人不只是“人工智障”，更是“人工杠精”。 75、任何行业的APP、软件、网站、应用，都值得用大模型的能力重塑一遍。搭不上这班车就会被淘汰。 76、大模型将作为“发电厂”把大数据加工成“水”和“电”，通过API接口以SaaS服务的方式输出给千行百业，全面提升人类社会智能化水平。 77、大模型可以极大地提高劳动生产率。用的人越多，教它的技能越多，它就能进入更多新的领域。 78、未来每个行业、每个公司、甚至每个人都会有自己的私有化的大模型。 79、OpenAI在ChatGPT的研发上做到了“四大一强”：大模型、大数据、大算力、大标注、强算法。 80、我们中国人的工程化能力很强，我们模仿能力也很强，后来居上也不是不可能。 81、一人捅破窗户纸，千军万马独木桥。从0到1难，但中国公司技术打磨很强。剩下就是时间，问题。 82、数据获取和清洗、人工知识训练和场景是大模型未来发展的三个关键。 83、“机器人造机器人”可能会从大模型具备写软件能力时开始。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人