我们至今仍未知道在人才流动性高度通畅的硅谷OpenAI是怎么做到如此断层领先的，要说屯人屯钱屯资源，谷歌脸书亚马逊都不可能比不过

我们至今仍未知道在人才流动性高度通畅的硅谷OpenAI是怎么做到如此断层领先的，要说屯人屯钱屯资源，谷歌脸书亚马逊都不可能比不过它，甚至按照估值来算的话，谷歌一年的利润（注意，还不是收入）就可以买下OpenAI了，但还是挡不住屡次被OpenAI截胡。目前来看，OpenAI确实是距离AGI最近的那家公司，它的产品泛用性太高了，就像很多精调之后的垂直模型都宣称能在某个细分题库里打败GPT-4，这是事实吗，是的，但这种定向刷分行为没有意义，最后体验下来，还是只有ChatGPT能够全程跟用户说人话。再比如我依然认为Midjourney的出图艺术性是独一档的，但DALL·E-3很明显训练方向和旨在临摹画师的Midjourney是不一样的，它更遵从文字逻辑，用朴实但准确的绘制反映AI理解的世界图景，所以在生产力上，它不如Midjourney有价值，却很适合搭在ChatGPT里去完善能力，够用就行，而且经济普惠。 Sora还没用上，不过目测也会强在泛用性，两步抽卡的图转视频模式以后的市场会越来越小了先在出图时抽卡，再去转视频抽卡，容错率太低了越来越多的AI视频产品也都不接受第三方的图片了，没办法，因为没有介入图片的生产环节，需要重新对图片进行理解再去转化，这条路走歪了。要么像是Sora这样，直接合并抽卡次数，用文本逻辑一次性生成视频，保持成本足够低，就一定能建立飞轮，要么和Midjourney的尝试方向一样，做封闭式的生态，发挥图片训练的优势去外延视频，而Runway和Pika这样来者不拒的视频工具，确实会压力巨大，很难维持付费规模。多扯一点，字节跳动直接把抖音的CEO调去管剪映，是真的果断，年度大会上梁茹波刚反省了公司内部的技术讨论直到2023年才有GPT相关议题，没过几天核心产品的一把手就直接去负责一款工具产品，这样的执行效率在大公司里委实不多见，而Sora的王炸反应，又及时的证明了字节跳动还真不是杯弓蛇影，前瞻性拉满了。 2024年，会很精彩。当然了，英伟达也会继续赢麻⋯⋯

在Telegram中查看

相关推荐

OpenAI 推出文本到视频人工智能模型 Sora

OpenAI 推出文本到视频人工智能模型 Sora 根据 OpenAI 的介绍博文，Sora 能够创建"具有多个角色、特定运动类型以及主体和背景准确细节的复杂场景"。该公司还指出，该模型能够理解物体"在物理世界中的存在方式"，还能"准确解释道具并生成表达生动情感的引人注目的角色"。该模型还能根据静态图像生成视频，以及在现有视频中填充缺失的帧或扩展视频。OpenAI 的博文中包含的 Sora 生成的演示包括淘金热时期加利福尼亚州的空中场景、从东京火车内部拍摄的视频等。许多演示都有人工智能的痕迹比如在一段博物馆的视频中，地板疑似在移动。OpenAI 表示，该模型"可能难以准确模拟复杂场景的物理现象"，但总体而言，演示结果令人印象深刻。几年前，像 Midjourney 这样的文本到图像生成器在模型将文字转化为图像的能力方面处于领先地位。但最近，视频技术开始飞速进步：Runway 和 Pika 等公司都展示了自己令人印象深刻的文字转视频模型，而Google的 Lumiere 也将成为 OpenAI 在这一领域的主要竞争对手之一。与 Sora 类似，Lumiere 也为用户提供了文字转换视频的工具，还能让用户通过静态图像创建视频。Sora 目前只对"红队"人员开放，他们负责评估模型的潜在危害和风险。OpenAI 还向一些视觉艺术家、设计师和电影制片人提供访问权限，以获得反馈意见。它指出，现有模型可能无法准确模拟复杂场景的物理现象，也可能无法正确解释某些因果关系。本月早些时候，OpenAI 宣布将在其文本到图像工具 DALL-E 3 中添加水印，但指出这些水印"很容易去除"。与其他人工智能产品一样，OpenAI 将不得不面对人工智能逼真视频被误认为是真实视频的后果。 ... PC版：手机版：

OpenAI的Sora会砸掉谁的饭碗？

OpenAI的Sora会砸掉谁的饭碗？ Google新模式性能完胜周四，Google突然发布了新一代多模态大模型Gemini 1.5 Pro，在与OpenAI的大模型之战中加速超越。这是业界迄今最强的大语言模型，最高可支持10，000K Token上下文，直接将性能提升到了百万级别，在性能上完全秒杀了OpenAI的GPT-4 Turbo。百万级别Token意味着什么？GoogleAI项目负责人杰夫·迪恩（Jeff Dean）解释说，在Gemini 1.5 Pro百万级别上下文窗口支持能力下，用户可以完成复杂的内容交互，轻松解析整本图书、电影、播客，理解非常长的文档，甚至是数百个文件数十万行的代码库。Gemini 1.5 Pro的发布，意味着Google在和OpenAI的军备竞赛中占据了强大的性能优势。相比之下，OpenAI的GPT-4 Turbo只能处理128k Token，而且近期更是出现了性能下滑的不利状况，直到上个月发布更新之后才有所改善。然而，OpenAI并没有让Google独美。就在同一天，他们发布了文本生成视频的AI模型Sora，只需文本就能自动生成视频；继文本模型ChatGPT和图片模型Dall-E之后，OpenAI又开始颠覆视频领域。相比GoogleGemini 1.5 Pro基于数据性能的硬实力优势，Sora基于视觉美学的惊艳表现，显然更容易让人印象深刻，迅速成为了社交网站上的热点。以假乱真细节惊艳Sora到底惊艳在哪里？OpenAI展示了多段Sora制作的视频内容，光是这些片段，就已经足够让人大跌眼镜。OpenAI在官方博客中写道，Sora不仅可以理解用户的需求，还知道这些事物在现实世界如何存在。只需要输入一段文本，Sora就能自动生成最长一分钟的高清视频。令人难以置信的是，Sora不仅可以准确把握用户文本中的复杂意思，并且还能分拆出不同的元素，将其转换为有具体创意构思的视频内容，看起来就像是专业导演、摄像和剪辑的作品。一位戴着墨镜、穿着皮衣的时尚女子走在雨后夜晚的东京市区街道上，抹了鲜艳唇彩的唇角微微翘起，即便带着墨镜也能看到她的微笑，地面的积水映出了她的身影和灯红酒绿的霓虹灯；热闹非凡的唐人街正在进行舞龙表演，熙熙攘攘的人群目光都聚焦在跃动的彩龙身上，整个环境的喜庆氛围仿佛令人身临其境。与此前的AI视频存在明显塑料感不同，此次Sora制作的视频在逼真度和艺术感方面有着显著差别：微微卷曲的人物头发，女人脸上的黑痣粉刺，地面积水倒映的霓虹光影，街头商贩摆卖的诸多食品，天空飘落的樱花细雪，细节的精细度几乎已经做到了以假乱真。更令人惊讶的是，Sora视频在构图、色彩、创意和运镜方面，都呈现出明显的电影风格，无论是一镜到底还是多机位都可以无缝切换，甚至还有“演员”的表情神态，这是此前的文生视频产品所不具备的。OpenAI一出手就将整个AI视频行业提升了一个级别。虽然Sora制作的视频还没有到完美的地步，仔细看还能看出“穿帮”之处，人物吃过的饼干甚至会完好无损，但在影像画质上已经较此前的AI视频有了质的飞跃，甚至有了电影的质感。而且，仅仅根据一段抽象的文字就能制作类电影的多镜头视频，这种语义理解和镜头运用能力更是接近了人类导演、摄像与剪辑的水平。显然，视频领域的ChatGPT时刻已经到来。AI进化速度令人震惊Sora发布之后，网络一片惊叹，几乎抢尽了Gemini的风头。AI的进化速度实在令人震惊。要知道，此时距离OpenAI推出ChatGPT，开启生成式AI时代，仅仅过去了14个月时间。直到去年，我们才刚刚熟悉文本生成图片的产品，而仅仅半年前，MidJourney创作的AI图片里还会出现六指人物。而现在，Sora的视频就已经让所有人开始感受到现实和虚拟的界限模糊。虽然OpenAI的GPT-4 Turbo此前出现了性能下滑和速度变慢的状况，令人担心生成式AI的增长遭遇了瓶颈；但Sora的发布无疑打消了所有人的担忧。云计算公司Box创始人兼CEO列维（Aaron Levie）在Sora发布之后感慨说，“如果有人还担心AI进化速度会变慢的话，我们又一次看到了完全相反的典范。”目前Sora只面向邀请的制作者和安全专家开放测试，发现和解决可能的安全问题，还没有宣布正式的公测时间表。毕竟在虚假信息充斥的互联网，DeepFake的道德问题也已经成为了关注焦点，像Sora这样以假乱真的视频一旦被滥用，可能会引发灾难性后果。在发布Sora的几乎同一时间，OpenAI还完成了一项要约售股交易，并不是融资用于公司用途，而是允许员工向以Thrive Capital牵头的风投机构出售现有股份套现。值得一提的是，作为OpenAI董事会成员，奥特曼自己并不持有公司股票，估值飙升并不能给他带来巨额财富。此次交易对OpenAI的整体估值达到了800亿美元，较之去年年初的300亿美元飙升了两倍多。按照投融资市场调研公司CB Insights统计，OpenAI已经成为全球估值最高的创业公司之一，仅次于字节跳动和SpaceX。实际上，此次交易本应在去年11月完成，只是因为奥特曼与董事会的冲突风波才被迫搁置。随着奥特曼重新回到OpenAI CEO职位，投资者再次给这家AI巨头投出了信任票。显然，在Sora正式发布之后，OpenAI的估值还会进一步飙升。巨头出手碾压AGI同行那么，令人惊艳的文本生视频Sora究竟会带来哪些冲击？AGI视频同行无疑是遭受最直接冲击的。Sora发布之后，AI视频创业公司Runway CEO瓦伦祖拉（Cristóbal Valenzuela）在X平台（此前的Twitter）上简单发布了两个字，“Game On．”（竞争开始了）。几个月前，Runway刚刚发布了Gen-2视频模型。而另一家AI视频公司Stability的CEO莫斯塔克（Emad Mostaque）则直接感慨，“奥特曼真是个魔术师。”Runway创办已有五年时间，在AI视频领域占据着先发优势，已经得到了好莱坞主流片场的使用。去年拿到七项奥斯卡大奖的年度影片《瞬息全宇宙》就使用了Runway来制作AI视频。在《瞬息全宇宙》大获成功之后，Runway新一轮融资估值也水涨船高，达到了15亿美元，是一年之前估值的三倍。文生视频领域是目前最热的创业领域。过去几个月时间，随着生成式AI热潮涌动，也涌现出了不少文本生视频和图片生视频的创业公司。A16z的AI投资合伙人摩尔（Justin Moore）列出了他所跟踪的20多家文生视频创业团队，其中不乏Pika、Zeroscope这样一度引发网络惊叹的创业新贵。去年年底，斯坦福华人毕业生创办的Pika视频一度引发了中美互联网的惊叹。得益于AI视频的惊艳表现，这家仅有四人的创业公司，在不到半年时间就完成了超过5500万美元的三轮融资，估值飙升到了2.5亿美元。但现在，AI巨头OpenAI直接抛出了Sora。无论是视频时长，还是画面精细度，还是细节完整性，或是多镜头拍摄，Sora都远远超越了这些小创业公司的视频，用碾压来形容也并不为过。虽然AI视频领域还有着巨大的提升和增长空间，但这些小公司的未来是否有能力与OpenAI竞争依然是个巨大的疑问。左右好莱坞劳资谈判不过，Sora影响的不仅是其他AGI视频创业公司的生存空间，更会改变整个好莱坞以及电影、电视、广告、游戏行业的未来游戏规则。好莱坞使用AI制作图片和视频，并不是什么新鲜事，从CG（电脑动画）、VR到AI，影视娱乐行业一直是高新技术的最先采用者。然而，与其他技术不同，AI工具始终是扎在好莱坞从业人员心中的一根刺。除了《瞬息全宇宙》使用了Runway的AI视频工具，去年21世纪福克斯已经与IBM沃森合作，用AI工具为关于AI主题的恐怖片《摩根》制作预告片；迪士尼旗下的漫威更完全用AI制作了《秘密入侵》的开头动画。当时正值好莱坞演员和编剧工会大罢工期间。而生成式AI在影视行业的应用也是双方的争议焦点之一。就在双方谈判的过程中，演员编剧们得知迪士尼漫威新一季的... PC版：手机版：

揭秘Sora：开发团队成立不到1年核心技术曾因“缺乏创新”遭拒绝

揭秘Sora：开发团队成立不到1年核心技术曾因“缺乏创新”遭拒绝《每日经济新闻》记者查询这两项技术的原作论文发现，时空Patch的技术论文实际上是由GoogleDeepMind的科学家们于2023年7月发表的。DiT架构技术论文的一作则是Sora团队领导者之一William Peebles，但戏剧性的是，这篇论文曾在2023年的计算机视觉会议上因“缺少创新性”而遭到拒绝，仅仅1年之后，就成为Sora的核心理论之一。如今，Sora团队毫无疑问已经成为世界上最受关注的技术团队。记者查询OpenAI官网发现，Sora团队由Peebles等3人领导，核心成员包括12人，其中有多位华人。值得注意的是，这支团队十分年轻，成立时间还尚未超过1年。核心突破一：时空Patch，站在Google肩膀上此前，OpenAI在X平台上展示了Sora将静态图像转换为动态视频的几个案例，其逼真程度令人惊叹。Sora是如何做到这一点的呢？这就不得不提到该AI视频模型背后的两项核心技术DiT架构和Spacetime Patch（时空Patch）。据外媒报道，Spacetime Patch是Sora创新的核心之一，该项技术是建立在GoogleDeepMind对NaViT（原生分辨率视觉Transformer）和ViT（视觉Transformer）的早期研究基础上。Patch可以理解为Sora的基本单元，就像GPT-4 的基本单元是Token。Token是文字的片段，Patch则是视频的片段。GPT-4被训练以处理一串Token，并预测出下一个Token。Sora遵循相同的逻辑，可以处理一系列的Patch，并预测出序列中的下一个Patch。Sora之所以能实现突破，在于其通过Spacetime Patch将视频视为补丁序列，Sora保持了原始的宽高比和分辨率，类似于NaViT对图像的处理。这对于捕捉视觉数据的真正本质至关重要，使模型能够从更准确的表达中学习，从而赋予Sora近乎完美的准确性。由此，Sora能够有效地处理各种视觉数据，而无需调整大小或填充等预处理步骤。记者注意到，OpenAI发布的Sora技术报告中透露了Sora的主要理论基础，其中Patch的技术论文名为Patch n‘ Pack： NaViT， a Vision Transformer for any Aspect Ratio and Resolution。记者查询预印本网站arxiv后发现，该篇研究论文是由GoogleDeepMind的科学家们于2023年7月发表的。图片来源：arxiv.org图片来源：Google Scholar核心突破二：扩散型Transformer架构，相关论文曾遭拒绝除此之外，Sora的另一个重大突破是其所使用的架构，传统的文本到视频模型（如Runway、Stable Diffusion）通常是扩散模型（Diffusion Model），文本模型例如GPT-4则是Transformer模型，而Sora则采用了DiT架构，融合了前述两者的特性。据报道，传统的扩散模型的训练过程是通过多个步骤逐渐向图片增加噪点，直到图片变成完全无结构的噪点图片，然后在生成图片时，逐步减少噪点，直到还原出一张清晰的图片。Sora采用的架构是通过Transformer的编码器-解码器架构处理包含噪点的输入图像，并在每一步预测出更清晰的图像。DiT架构结合时空Patch，让Sora能够在更多的数据上进行训练，输出质量也得到大幅提高。OpenAI发布的Sora技术报告透露，Sora采用的DiT架构是基于一篇名为Scalable diffusion models with transformers的学术论文。记者查询预印本网站arxiv后发现，该篇原作论文是2022年12月由伯克利大学研究人员William （Bill） Peebles和纽约大学的一位研究人员Saining Xie共同发表。William （Bill） Peebles之后加入了OpenAI，领导Sora技术团队。图片来源：arxiv.org然而，戏剧化的是，Meta的AI科学家Yann LeCun在X平台上透露，“这篇论文曾在2023年的计算机视觉会议（CVR2023）上因‘缺少创新性’而遭到拒绝，但在2023年国际计算机视觉会议（ICCV2023）上被接受发表，并且构成了Sora的基础。”图片来源：X平台作为最懂DiT架构的人之一，在Sora发布后，Saining Xie在X平台上发表了关于Sora的一些猜想和技术解释，并表示，“Sora确实令人惊叹，它将彻底改变视频生成领域。”“当Bill和我参与DiT项目时，我们并未专注于创新，而是将重点放在了两个方面：简洁性和可扩展性。”他写道。“简洁性代表着灵活性。关于标准的ViT，人们常忽视的一个亮点是，它让模型在处理输入数据时变得更加灵活。例如，在遮蔽自编码器（MAE）中，ViT帮助我们只处理可见的区块，忽略被遮蔽的部分。同样，Sora可以通过在适当大小的网格中排列随机初始化的区块来控制生成视频的尺寸。”图片来源：X平台不过，他认为，关于Sora仍有两个关键点尚未被提及。一是关于训练数据的来源和构建，这意味着数据很可能是Sora成功的关键因素；二是关于（自回归的）长视频生成，Sora的一大突破是能够生成长视频，但OpenAI尚未揭示相关的技术细节。年轻的开发团队：应届博士带队，还有00后随着Sora的爆火，Sora团队也来到世界舞台的中央，引发了持续的关注。记者查询OpenAI官网发现，Sora团队由William Peebles等3人领导，核心成员包括12人。从团队领导和成员的毕业和入职时间来看，这支团队成立的时间较短，尚未超过1年。图片来源：OpenAI官网从年龄上来看，这支团队也非常年轻，两位研究负责人都是在2023年才刚刚博士毕业。William （Bill） Peebles于去年5月毕业，其与Saining Xie合著的扩散Transformer论文成为Sora的核心理论基础。Tim Brooks于去年1月毕业，是DALL-E 3的作者之一，曾在Google和英伟达就职。图片来源：William （Bill） Peebles个人主页团队成员中甚至还有00后。团队中的Will DePue生于2003年，2022年刚从密西根大学计算机系本科毕业，在今年1月加入Sora项目组。图片来源：Will DePue个人主页此外，团队还有几位华人。据媒体报道，Li Jing是 DALL-E 3 的共同一作，2014年本科毕业于北京大学物理系，2019年获得MIT物理学博士学位，于2022年加入OpenAI。Ricky Wang则是今年1月刚刚从Meta跳槽到OpenAI。其余华人员工包括Yufei Guo等尚未有太多公开资料介绍。 ... PC版：手机版：

openAI 奥特曼：回答关切的GPT-5、Sora、董事会闹剧、马斯克等首个AGI系统能够回答关于宇宙统一理论和外星文明存在

openAI 奥特曼：回答关切的GPT-5、Sora、董事会闹剧、马斯克等首个AGI系统能够回答关于宇宙统一理论和外星文明存在性等重大科学问题。#视频频道：@kejiqu 群组：@kejiquchat

OpenAI的首席技术官Mira Murati在接受华尔街日报采访时对Sora的进行了详细介绍。|

OpenAI的首席技术官Mira Murati在接受华尔街日报采访时对Sora的进行了详细介绍。| 发布时间：Sora目前还在开发和测试阶段，OpenAI计划在今年内的某个时间发布Sora，具体时间可能考虑到全球选举等因素，目前仍在打磨中，且正在进行外部测试，尤其关注电影行业的创作者。生成时间：关于生成视频的时间，720P分辨率或20秒长视频，生成时间大概在几分钟，这取决于提示的复杂性，这与传言中需要数个小时的说法不同，同时他们也在优化资源。目前视频没有声音，Sora未来可能会支持视频声效。数据来源：当被问及Sora训练的素材是否包括YouTube、Instagram和Facebook上的视频时，Mira Murati的回答是不确定的。她没有明确确认这些平台的视频是否被用作训练数据，称Sora的训练数据来自公开可用和授权的数据，最后结束后确认训练数据包括Shutterstock的内容。计算资源：Sora的生成过程相比于ChatGPT和DALI需要更多的计算资源，OpenAI致力于优化技术，降低成本，便于公众使用。安全性和可靠性：Sora目前正在进行红队测试（测试工具的安全性、可靠性和缺陷），以识别潜在的漏洞、偏见和其他有害问题。内容限制：与DALLE类似，Sora在生成内容时也会有一些限制，例如不生成公众人物的图像，以避免误导和滥用。裸露内容：关于裸露内容的处理，提到OpenAI正在与艺术家和创作者合作，以确定工具应该提供的灵活性水平和合理的限制，但没有具体提到如何区分艺术和色情的内容。正在研究对视频进行水印标记，但是相对一水印，视频内容的审核限制更为重要，因为随着生成的视频更加真实，用户将无法分辨视频内容的真实性，防止生成误导内容。

OpenAI 发布文生视频模型 Sora

OpenAI 发布文生视频模型 Sora 2月16日凌晨，OpenAI再次扔出一枚深水炸弹，发布了首个文生视频模型。Sora可以直接输出长达60秒的视频，并且包含高度细致的背景、复杂的多角度镜头，以及富有情感的多个角色。一位YouTube博主Paddy Galloway发表了对Sora的感想，他表示内容创作行业已经永远的改变了，并且毫不夸张。“我进入YouTube世界已经15年时间，但OpenAI刚刚的展示让我无言…动画师/3D艺术家们有麻烦了，素材网站将变得无关紧要，任何人都可以无壁垒获得难以置信的产品，内容背后的‘想法’和故事将变得更加重要。” 但Sora模型当前也存在弱点。OpenAI称它可能难以准确模拟复杂场景的物理原理，并且可能无法理解因果关系。例如，一个人可能咬了一口饼干后，饼干会没有咬痕，玻璃破碎的物理过程可能也无法被准确呈现。频道：@kejiqu 群组：@kejiquchat

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人