我们至今仍未知道在人才流动性高度通畅的硅谷OpenAI是怎么做到如此断层领先的,要说屯人屯钱屯资源,谷歌脸书亚马逊都不可能比不过

我们至今仍未知道在人才流动性高度通畅的硅谷OpenAI是怎么做到如此断层领先的,要说屯人屯钱屯资源,谷歌脸书亚马逊都不可能比不过它,甚至按照估值来算的话,谷歌一年的利润(注意,还不是收入)就可以买下OpenAI了,但还是挡不住屡次被OpenAI截胡。目前来看,OpenAI确实是距离AGI最近的那家公司,它的产品泛用性太高了,就像很多精调之后的垂直模型都宣称能在某个细分题库里打败GPT-4,这是事实吗,是的,但这种定向刷分行为没有意义,最后体验下来,还是只有ChatGPT能够全程跟用户说人话。再比如我依然认为Midjourney的出图艺术性是独一档的,但DALL·E-3很明显训练方向和旨在临摹画师的Midjourney是不一样的,它更遵从文字逻辑,用朴实但准确的绘制反映AI理解的世界图景,所以在生产力上,它不如Midjourney有价值,却很适合搭在ChatGPT里去完善能力,够用就行,而且经济普惠。Sora还没用上,不过目测也会强在泛用性,两步抽卡的图转视频模式以后的市场会越来越小了——先在出图时抽卡,再去转视频抽卡,容错率太低了——越来越多的AI视频产品也都不接受第三方的图片了,没办法,因为没有介入图片的生产环节,需要重新对图片进行理解再去转化,这条路走歪了。要么像是Sora这样,直接合并抽卡次数,用文本逻辑一次性生成视频,保持成本足够低,就一定能建立飞轮,要么和Midjourney的尝试方向一样,做封闭式的生态,发挥图片训练的优势去外延视频,而Runway和Pika这样来者不拒的视频工具,确实会压力巨大,很难维持付费规模。多扯一点,字节跳动直接把抖音的CEO调去管剪映,是真的果断,年度大会上梁茹波刚反省了公司内部的技术讨论直到2023年才有GPT相关议题,没过几天核心产品的一把手就直接去负责一款工具产品,这样的执行效率在大公司里委实不多见,而Sora的王炸反应,又及时的证明了字节跳动还真不是杯弓蛇影,前瞻性拉满了。2024年,会很精彩。当然了,英伟达也会继续赢麻⋯⋯

相关推荐

封面图片

揭秘Sora:开发团队成立不到1年 核心技术曾因“缺乏创新”遭拒绝

揭秘Sora:开发团队成立不到1年核心技术曾因“缺乏创新”遭拒绝《每日经济新闻》记者查询这两项技术的原作论文发现,时空Patch的技术论文实际上是由GoogleDeepMind的科学家们于2023年7月发表的。DiT架构技术论文的一作则是Sora团队领导者之一WilliamPeebles,但戏剧性的是,这篇论文曾在2023年的计算机视觉会议上因“缺少创新性”而遭到拒绝,仅仅1年之后,就成为Sora的核心理论之一。如今,Sora团队毫无疑问已经成为世界上最受关注的技术团队。记者查询OpenAI官网发现,Sora团队由Peebles等3人领导,核心成员包括12人,其中有多位华人。值得注意的是,这支团队十分年轻,成立时间还尚未超过1年。核心突破一:时空Patch,站在Google肩膀上此前,OpenAI在X平台上展示了Sora将静态图像转换为动态视频的几个案例,其逼真程度令人惊叹。Sora是如何做到这一点的呢?这就不得不提到该AI视频模型背后的两项核心技术——DiT架构和SpacetimePatch(时空Patch)。据外媒报道,SpacetimePatch是Sora创新的核心之一,该项技术是建立在GoogleDeepMind对NaViT(原生分辨率视觉Transformer)和ViT(视觉Transformer)的早期研究基础上。Patch可以理解为Sora的基本单元,就像GPT-4的基本单元是Token。Token是文字的片段,Patch则是视频的片段。GPT-4被训练以处理一串Token,并预测出下一个Token。Sora遵循相同的逻辑,可以处理一系列的Patch,并预测出序列中的下一个Patch。Sora之所以能实现突破,在于其通过SpacetimePatch将视频视为补丁序列,Sora保持了原始的宽高比和分辨率,类似于NaViT对图像的处理。这对于捕捉视觉数据的真正本质至关重要,使模型能够从更准确的表达中学习,从而赋予Sora近乎完美的准确性。由此,Sora能够有效地处理各种视觉数据,而无需调整大小或填充等预处理步骤。记者注意到,OpenAI发布的Sora技术报告中透露了Sora的主要理论基础,其中Patch的技术论文名为Patchn‘Pack:NaViT,aVisionTransformerforanyAspectRatioandResolution。记者查询预印本网站arxiv后发现,该篇研究论文是由GoogleDeepMind的科学家们于2023年7月发表的。图片来源:arxiv.org图片来源:GoogleScholar核心突破二:扩散型Transformer架构,相关论文曾遭拒绝除此之外,Sora的另一个重大突破是其所使用的架构,传统的文本到视频模型(如Runway、StableDiffusion)通常是扩散模型(DiffusionModel),文本模型例如GPT-4则是Transformer模型,而Sora则采用了DiT架构,融合了前述两者的特性。据报道,传统的扩散模型的训练过程是通过多个步骤逐渐向图片增加噪点,直到图片变成完全无结构的噪点图片,然后在生成图片时,逐步减少噪点,直到还原出一张清晰的图片。Sora采用的架构是通过Transformer的编码器-解码器架构处理包含噪点的输入图像,并在每一步预测出更清晰的图像。DiT架构结合时空Patch,让Sora能够在更多的数据上进行训练,输出质量也得到大幅提高。OpenAI发布的Sora技术报告透露,Sora采用的DiT架构是基于一篇名为Scalablediffusionmodelswithtransformers的学术论文。记者查询预印本网站arxiv后发现,该篇原作论文是2022年12月由伯克利大学研究人员William(Bill)Peebles和纽约大学的一位研究人员SainingXie共同发表。William(Bill)Peebles之后加入了OpenAI,领导Sora技术团队。图片来源:arxiv.org然而,戏剧化的是,Meta的AI科学家YannLeCun在X平台上透露,“这篇论文曾在2023年的计算机视觉会议(CVR2023)上因‘缺少创新性’而遭到拒绝,但在2023年国际计算机视觉会议(ICCV2023)上被接受发表,并且构成了Sora的基础。”图片来源:X平台作为最懂DiT架构的人之一,在Sora发布后,SainingXie在X平台上发表了关于Sora的一些猜想和技术解释,并表示,“Sora确实令人惊叹,它将彻底改变视频生成领域。”“当Bill和我参与DiT项目时,我们并未专注于创新,而是将重点放在了两个方面:简洁性和可扩展性。”他写道。“简洁性代表着灵活性。关于标准的ViT,人们常忽视的一个亮点是,它让模型在处理输入数据时变得更加灵活。例如,在遮蔽自编码器(MAE)中,ViT帮助我们只处理可见的区块,忽略被遮蔽的部分。同样,Sora可以通过在适当大小的网格中排列随机初始化的区块来控制生成视频的尺寸。”图片来源:X平台不过,他认为,关于Sora仍有两个关键点尚未被提及。一是关于训练数据的来源和构建,这意味着数据很可能是Sora成功的关键因素;二是关于(自回归的)长视频生成,Sora的一大突破是能够生成长视频,但OpenAI尚未揭示相关的技术细节。年轻的开发团队:应届博士带队,还有00后随着Sora的爆火,Sora团队也来到世界舞台的中央,引发了持续的关注。记者查询OpenAI官网发现,Sora团队由WilliamPeebles等3人领导,核心成员包括12人。从团队领导和成员的毕业和入职时间来看,这支团队成立的时间较短,尚未超过1年。图片来源:OpenAI官网从年龄上来看,这支团队也非常年轻,两位研究负责人都是在2023年才刚刚博士毕业。William(Bill)Peebles于去年5月毕业,其与SainingXie合著的扩散Transformer论文成为Sora的核心理论基础。TimBrooks于去年1月毕业,是DALL-E3的作者之一,曾在Google和英伟达就职。图片来源:William(Bill)Peebles个人主页团队成员中甚至还有00后。团队中的WillDePue生于2003年,2022年刚从密西根大学计算机系本科毕业,在今年1月加入Sora项目组。图片来源:WillDePue个人主页此外,团队还有几位华人。据媒体报道,LiJing是DALL-E3的共同一作,2014年本科毕业于北京大学物理系,2019年获得MIT物理学博士学位,于2022年加入OpenAI。RickyWang则是今年1月刚刚从Meta跳槽到OpenAI。其余华人员工包括YufeiGuo等尚未有太多公开资料介绍。...PC版:https://www.cnbeta.com.tw/articles/soft/1419009.htm手机版:https://m.cnbeta.com.tw/view/1419009.htm

封面图片

OpenAI宣布将在数字内容中加入不可见水印以便可以检测AI生成内容

OpenAI宣布将在数字内容中加入不可见水印以便可以检测AI生成内容今年早些时候OpenAI已经在DALL-E3图像生成模型中接入了C2PA相关标准,即生成的图像会标记来自该模型,也就是证明这是由人工智能创作的图像。OpenAI称当Sora文本生成模型视频广泛推出时也会为Sora生成的视频内容添加C2PA元数据,可以识别视频来自Sora生成而不是真实拍摄等。值得注意的是C2PA标准元数据是可以删除的,一个简单的例子就是对于DALL-E3生成的图像只需要修改图片元数据甚至直接截图就可以抹掉C2PA信息,所以OpenAI还准备了不可见的水印。不可见水印俗称盲水印,这种水印肉眼无法识别,但一些特殊的工具对图片进行处理后是可以读取盲水印的,OpenAI的计划就是在后续实施盲水印,用难以删除的不可见信号标记音频等数字内容。既然添加盲水印那OpenAI也会提供对应的检测工具,OpenAI已经开发了用于检测AI模型生成内容的检测分类器,该分类器从今天开始向一些研究人员提供,该工具主要可以检测DALL-E3生成的图像,准确率为98%,大约会有不到0.5%的非AI生成的图像也会被标记为AI生成,这个后续OpenAI还会继续优化。...PC版:https://www.cnbeta.com.tw/articles/soft/1430006.htm手机版:https://m.cnbeta.com.tw/view/1430006.htm

封面图片

中信证券:OpenAI 推出视频生成模型 Sora,AI 产业围绕多模态不断加码

中信证券:OpenAI推出视频生成模型Sora,AI产业围绕多模态不断加码中信证券研报指出,近一周内,OpenAI和谷歌分别推出了他们的最新AI模型,围绕视频多模态这个核心关键点双方不断加码。Gemini1.5Pro基于大语言模型处理视频模态,上下文长度超过百万,Sora在技术上采用了DiffusionTransformer的路线,OpenAI表示Sora在训练过程中表现出了与其他模型不同的涌现能力,有望成为真正的“世界模型”。从投资角度来看,Sora背后的涌现能力为自动驾驶、设计等需要现实世界建模的行业提供了明确方向。Gemini在短期内的部分商业场景表现可能会更为出色,尤其是需要结合图片与文字的多模态应用场景。除去应用端的投资机会,硬件端的需求也必然会随着多模态的技术进步而不断提高,我们仍然持续看好AI算力,尤其是后续商业端成熟而带来的更多AI推理侧算力的机会。

封面图片

爆火Sora震惊威尔·史密斯 OpenAI技术路线或早在1月被成功预言

爆火Sora震惊威尔·史密斯OpenAI技术路线或早在1月被成功预言你以为,上面是一年前的AI视频,下面是如今的AI视频?错!这个所谓AI生成的视频,其实正是威尔史密斯本人!威尔·史密斯吃意面这个“图灵测试”,曾让Runway、Pika等屡屡翻车。Runway生成的,是这样的——但如今,Sora已经做到了逼真似真人、毫无破绽,所以才让威尔史密斯成功骗过了大众,这太可怕了!Sora的出现,其实在今年1月就已被人预言1月5日,一位前阿里的AI专家表示——我认为,Transformer框架和LLM路线,将是AI视频的一个突破口和新范式,它将使AI视频更加连贯、一致,并且时长更长。目前的Diffusion+Unet路线(如Runway、Pika等),只是暂时的解决方案。无独有偶,斯坦福学者李飞飞在去年年底,就用Transformer就做出了逼真的视频。而马毅教授也表示,自己团队去年在NeurIPS一篇论文中也已经证实,用Transformer可以实现diffusion和denosing。马毅团队提出:假设数据分布是mixedGaussians,那Transformerblocks就是在实现diffusion/扩散和denoising/压缩能想到Sora技术路线的,肯定不止一个人。可是全世界第一个把Sora做出来的,就是OpenAI。OpenAI为何总能成功?无他,唯手快尔。Runway和Pika“点歪”的科技树,被OpenAI掰正了在此之前,Runway、Pika等AI视频工具吸引了不少聚光灯。而OpenAI的Sora,不仅效果更加真实,就是把Transformer对前后文的理解和强大的一致性,发挥得淋漓尽致。这个全新的科技树,可真是够震撼的。不过我们在开头也可以看到,OpenAI并不是第一个想到这个的人。Transformer框架+LLM路线这种新范式,其实早已有人想到了。就如同AI大V“阑夕”所言,OpenAI用最简单的话,把最复杂的技术讲清楚了——“图片只是单帧的视频。”科技行业这种从容的公共表达,真是前所未见,令人醍醐灌顶。“阑夕”指出,“图片只是单帧的视频”的妙处就在于,图片的创建不会脱离时间轴而存在,Sora实际上是提前给视频写了脚本的。甚至无论用户怎样Prompt,SoraAI都有自己的构图思维。而这,就是困住Runway、Pika等公司最大的问题。它们的思路,基本都是基于一张图片来让AI去想象,完成延伸和填补,从而叠加成视频。比拼的是谁家的AI更能理解用户想要的内容。因此,这些AI视频极易发生变形,如何保持一致性成了登天般的难题。DiffusionModel这一局,是彻底输给Transformer了。ChatGPT故事再次重演,Sora其实站在Google的肩膀上让我们深入扒一扒,Sora是站在哪些前人的肩膀上。简而言之,最大创新Patch的论文,是Google发表的。DiffusionTransformer的论文,来自WilliamPeebles和谢赛宁。此外,Meta等机构、UC伯克利等名校皆有贡献。WilliamPeebles和谢赛宁提出的框架纽约大学计算机系助理教授谢赛宁在分析了Sora的技术报告后表示,Sora应该是基于自己和WilliamPeebles提出的框架设计而成。这篇提出了Sora基础架构的论文,去年被ICCV收录。论文地址:https://arxiv.org/abs/2212.09748随后,WilliamPeebles加入了OpenAI,领导了开发Sora的技术团队。图灵三巨头之一、MetaAI主管LeCun,也转发了谢赛宁的帖子表示认可。巧合的是,谢赛宁是LeCun的前FAIR同事、现纽约大学同事,WilliamPeebles是LeCun的前伯克利学生、现任OpenAI工程师。AI果然是个圈。最近,谢赛宁对说自己是Sora作者的说法进行了辟谣CVPR“有眼不识泰山”,拒掉Sora基础论文有趣的是,DiffusionTransformer这篇论文曾因“缺乏创新性”被CVPR2023拒收,后来才被ICCV2003接收。谢赛宁表示,他们在DIT项目没有创造太多的新东西,但是两个方面的问题:简单性和可扩展性。这可能就是Sora为什么要基于DIT构建的主要原因。此前,生成模型的方法包括GAN、自回归、扩散模型。它们都有各自的优势和局限性。而Sora引入的,是一种全新的范式转变——新的建模技术和灵活性,可以处理各种时间、纵横比和分辨率。Sora所做的,是把Diffusion和Transformer架构结合在一起,创建了diffusiontransformer模型。这也即是OpenAI的创新之处。时空Patch是Google的创新时空Patch,是Sora创新的核心。它建立在GoogleDeepMind早期对NaViT和ViT(视觉Transformer)的研究之上。论文地址:https://arxiv.org/abs/2307.06304而这项研究,又是基于一篇2021年的论文“AnImageisWorth16x16Words”。论文地址:https://arxiv.org/abs/2010.11929传统上,对于视觉Transformer,研究者都是使用一系列图像Patch来训练用于图像识别的Transformer模型,而不是用于语言Transformer的单词。这些Patch,能使我们能够摆脱卷积神经网络进行图像处理。然而,视觉Transforemr对图像训练数据的限制是固定的,这些数据的大小和纵横比是固定的,这就限制了质量,并且需要大量的图像预处理。而通过将视频视为Patch序列,Sora保持了原始的纵横比和分辨率,类似于NaViT对图像的处理。这种保存,对于捕捉视觉数据的真正本质至关重要!通过这种方法,模型能够从更准确的世界表示中学习,从而赋予Sora近乎神奇的准确性。时空Patch的可视化GooglePatch的论文,发表于2021年。3年后,OpenAI基于这项技术,做出了Sora。这段历史看起来是不是有点眼熟?简直就像“AttentionIsAllYouNeed”的历史重演。2017年6月12日,8位Google研究人员发表了AttentionisAllYouNeed,大名鼎鼎的Transformer横空出世。它的出现,让NLP变了天,成为自然语言领域的主流模型。论文地址:https://arxiv.org/pdf/1706.03762.pdf它完全摒弃了递归结构,依赖注意力机制,挖掘输入和输出之间的关系,进而实现了并行计算。在Google看来,Transformer是一种语言理解的新型神经网络架构。不过它当初被设计出来,是为了解决翻译问题。而后来,Transformer架构被OpenAI拿来发扬光大,成为ChatGPT这类LLM的核心。2022年,OpenAI用Google17年发表的Transformer做出ChatGPT。2024年,OpenAI用Google21年发表的Patch做出Sora。这也让人不由感慨:诚如《为什么伟大不能被计划》一书中所言,伟大的成就与发明,往往是偏离最初计划的结果。前人的无心插柳,给后人的成功做好了奠基石,而一条成功的道路是如何踏出的,完全是出于偶然。Meta微软UC伯克利斯坦福MIT亦有贡献此外,从Sora参考文献中可以看出,多个机构和名校都对Sora做出了贡献。比如,用Transformer做扩散模型的去噪骨干这个方法,早已被斯坦福学者李飞飞证明。在去年12月,李飞飞携斯坦福联袂Google,用Transformer生成了逼真视频。生成的效果可谓媲美Gen-2比肩Pika,当时许多人激动地感慨——2023年已成AI视频元年,谁成想2024一开年,OpenAI新的震撼就来了!李飞飞团队做的,是一个在共享潜空间中训练图像和视频生成的,基于Transformer的扩散模型。史上首次,AI学者证明了:Transformer架构可以将图像和视频编码到一个共享的潜空间中!论文:https://walt-video-diffusion.github.io/assets/W.A.L.T.pdfMSRA和北大联合团队提出的统一多模态预训练模型——NÜWA(女娲),也为Sora做出了贡献。此前的多模态模型要么只能处理图像,要么只能处理视频,而NÜWA则可以为各种视觉合成任务,生成新的图像和视频数据。项目地址:https://github.com/microsoft/NUWA为了在不同场景下同时覆盖语言、图像和视频,团队设计了一个三维变换器编码器-解码器框架。它不仅可以处理作为三维数据的视频,还可以适应分别作为一维和二维数据的文本和图像。在8个下游任务中,NÜWA都取得了新的SOTA,在文本到图像生成中的表现,更是直接超越了DALL-E。NÜWA模型支持的8种典型视觉生成任务草蛇灰线,伏脉千里。踩在前人的肩膀上,通过敏锐的直觉和不眠不休的高强度工作,OpenAI的研究者...PC版:https://www.cnbeta.com.tw/articles/soft/1419363.htm手机版:https://m.cnbeta.com.tw/view/1419363.htm

封面图片

OpenAI的首席技术官Mira Murati在接受华尔街日报采访时对Sora的进行了详细介绍。| video

OpenAI的首席技术官MiraMurati在接受华尔街日报采访时对Sora的进行了详细介绍。发布时间:Sora目前还在开发和测试阶段,OpenAI计划在今年内的某个时间发布Sora,具体时间可能考虑到全球选举等因素,目前仍在打磨中,且正在进行外部测试,尤其关注电影行业的创作者。生成时间:关于生成视频的时间,720P分辨率或20秒长视频,生成时间大概在几分钟,这取决于提示的复杂性,这与传言中需要数个小时的说法不同,同时他们也在优化资源。目前视频没有声音,Sora未来可能会支持视频声效。数据来源:当被问及Sora训练的素材是否包括YouTube、Instagram和Facebook上的视频时,MiraMurati的回答是不确定的。她没有明确确认这些平台的视频是否被用作训练数据,称Sora的训练数据来自公开可用和授权的数据,最后结束后确认训练数据包括Shutterstock的内容。计算资源:Sora的生成过程相比于ChatGPT和DALI需要更多的计算资源,OpenAI致力于优化技术,降低成本,便于公众使用。安全性和可靠性:Sora目前正在进行红队测试(测试工具的安全性、可靠性和缺陷),以识别潜在的漏洞、偏见和其他有害问题。内容限制:与DALLE类似,Sora在生成内容时也会有一些限制,例如不生成公众人物的图像,以避免误导和滥用。裸露内容:关于裸露内容的处理,提到OpenAI正在与艺术家和创作者合作,以确定工具应该提供的灵活性水平和合理的限制,但没有具体提到如何区分艺术和色情的内容​​。正在研究对视频进行水印标记,但是相对一水印,视频内容的审核限制更为重要,因为随着生成的视频更加真实,用户将无法分辨视频内容的真实性,防止生成误导内容。

封面图片

周鸿祎称 Sora 工作原理像人做梦

周鸿祎称Sora工作原理像人做梦今日上午,360创始人、董事长周鸿祎发布视频分享自己对OpenAI最新的文生视频大模型Sora的见解,他写道:“Sora工作原理像人做梦,未来AGI比的就是算力和对世界的理解。”视频中,他讲到:“用传统计算机、图形学、影视工业特效的方法来重现一些画面的时候,我们喜欢的是3D件模型、建立光照、搞粒子模型、然后一帧一帧地渲染。这种方法实际上是效率非常低、耗费非常贵的。是用一种最笨的方法模拟出了这个世界。但Sora的方法非常像人类的做梦——我们会梦到各种奇奇怪怪的东西,做梦所产生的依据是我们在正常生活中眼睛看到的东西,这种积累的经验,是不需要3D建模然后一帧一帧渲染的。”他还把近期人们关注的Sora在视频中出现的Bug等比做人在做梦时同样会产生的幻觉等违背现实规律的情况。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人