Sora爆火100小时:核心团队被扒,卖课狂割韭菜,虚假视频泛滥

Sora爆火100小时:核心团队被扒,卖课狂割韭菜,虚假视频泛滥 相比去年GPT-4超长篇幅的作者名单,Sora的作者团队显然更加简短。这些参与者中,已知的核心成员包括研发负责人Tim Brooks、William(Bill)Peebles、系统负责人 Connor Holmes等。前两人师出同门,均在2019年进入伯克利深造,直到2023年上半年才一前一后获得博士学位,可以说是非常年轻。值得注意的是,William(Bill)Peebles曾和现任纽约大学计算机科学助理教授谢赛宁一起发表过论文《Scalable Diffusion Models with Transformers》,该论文研究成果DiT模型被Sora引用,也是这次Sora背后的重要技术基础之一。因为论文的引用也传出了一则谣言,有网友认为谢赛宁是Sora作者之一,目前谢赛宁本人已在朋友圈亲自辟谣。根据谢赛宁的透露,Sora是William(Bill)Peebles等人在OpenAI的呕心沥血之作,每天基本不睡觉高强度工作了一年。要知道,William(Bill)Peebles在2023年3月入职OpenAI,距今刚好不到一年。这也从侧面否定了之前传闻中的“Sora早就开发完成,只是一直没发”的言论。未公测却卖课,新型韭菜收割机?而市场上围绕着Sora的不仅仅有谣言,还有一系列巧立名目的骗局。据知情人士透露,目前市面上一份Sora的课程售价为99元,一天时间就卖出了2万多份。也就是说,卖课者一天至少到手200万元。而课程交付的内容却极其简陋,只有Sora的介绍文档,以及一句口号:“给自己一个机会”。无独有偶,甚至有人号称手上有北美NASA工作人员的资源,已经拿到接口,把Sora打包到GPTs,做成软件发布上线。除此之外,还有搜集各类Sora文章、专有名词等资料,做成飞书文档卖钱的,也有直接套用影视行业专业名词包装成Sora的提示词,让人付费进群领取的,诸如此类各式各样打着Sora旗号收割韭菜的骗局。更甚者还有人为了吸引人付费,不择手段地大力制造焦虑感,到处宣称“Sora的风口最多3个月就消失”、“一步慢,步步慢”,“24小时之内上线了一款连产品都没有发布的课程”。某电商平台上,也有人售卖Sora教程,甚至连宣传海报都是同一款,懒得另外重做。这也直接迫使OpenAI的开发者关系负责人Logan发布紧急声明,称Sora正处于内测阶段,并未对外开放。即使开放,Sora能够作为产品使用的时间也仍旧遥遥无期。而在卖课之外,也有许多人在利用Sora的热度疯狂拉人头,积攒私域流量。例如在朋友圈散发二维码拉人入群,热衷宣扬“Sora首部AI电影共创剧本海选开始!”以及“我们都有机会成为第一代AI导演!”等言论。也有像地推人员一样在AI群中通过私信加好友,以“改变命运”、“破圈”为噱头,索要999元入群,声称共同踏上新世界之门。更谨慎的则会借着Sora的理由,夸大作用将其吹捧成改变命运、实现财富自由的机会,以此为理由推销《短视频矩阵引流解决方案》等相关课程,声称只有先学好这些,才能成为第一批通过Sora赚钱的人。归根结底,Sora带来的AI割韭菜事件,和用小礼品吸引大妈买保健品一样,本质上就是割韭菜,贩卖焦虑赚信息差的钱。真实视频假冒Sora制作,已成流量密码除此之外,给真实视频标注“该作品由人工智能Sora生成”,也成了当下的流量密码。事情的起因还得从Sora公布当天说起,X上有一位博主发布了一段由Sora生成的维多利亚凤冠鸠视频,注明了产生它的指令。同时在开头强调了这样一句话:该视频由OpenAI的新模型Sora生成。视频不出意外得到数千转发,登上了热门,一瞬便激起了广泛的讨论。随后就有不少网友发现,网上除了Sora公开的一小部分影片作品,突然多了许多标注“该视频由OpenAI的新模型Sora生成”的视频,甚至发布者还贴心地附上了“生成指令”。然而实际上,这些视频几乎都是用真实视频假冒的Sora视频,并非Sora生成。比如最近,号称“视频生成界的图灵测试”的威尔·史密斯吃意大利面的视频又重出江湖。视频画面上半段显示是一年以前的 AI 视频,下半段则显示现在的 AI 视频。要知道,一年前由AI生成的“威尔·史密斯吃意大利面”视频效果并不理想,其中涉及到处理人物手势、面条形状以及进食动作等方面都面临着巨大挑战。相较之下,据称由Sora生成的视频效果却出奇地出色,生成的手势和面条都表现得非常逼真,似乎已经成功应对了图灵测试。结合最近OpenAI展示的各种Sora生成结果,很多人开始相信:这是Sora生成的新视频,显示出现代视频生成AI已经达到了以假乱真的水平。然而,实际情况却是该视频并非由Sora生成,而是由威尔·史密斯本人亲自录制。那Sora究竟能不能生成吃意大利面的场景呢?这个问题目前还没有测试结果。有网友调侃,现在怎么分辨真的真视频,假的真视频,真的假视频,假的假视频,是一大难题。很显然,视频界的混淆矩阵已经出来了。关于这个问题,也引起了很多专业人士的热议。Keras之父François Chollet就表示,像Sora这样的视频生成模型确实嵌入了物理模型,但问题是:这个物理模型是否准确?它能否泛化到新的情况,即那些不仅仅是训练数据插值的情形?简单来说,就是François Chollet认为,Sora只达到了人类做梦的水平,但是逻辑能力依然不行。从Sora官方公布的视频中,也可以观察到一些逻辑错误,进一步证实了这个问题。未来,Sora距离真正“以假乱真”还有一段很长的路要走。 ... PC版: 手机版:

相关推荐

封面图片

揭秘Sora:开发团队成立不到1年 核心技术曾因“缺乏创新”遭拒绝

揭秘Sora:开发团队成立不到1年 核心技术曾因“缺乏创新”遭拒绝 《每日经济新闻》记者查询这两项技术的原作论文发现,时空Patch的技术论文实际上是由GoogleDeepMind的科学家们于2023年7月发表的。DiT架构技术论文的一作则是Sora团队领导者之一William Peebles,但戏剧性的是,这篇论文曾在2023年的计算机视觉会议上因“缺少创新性”而遭到拒绝,仅仅1年之后,就成为Sora的核心理论之一。如今,Sora团队毫无疑问已经成为世界上最受关注的技术团队。记者查询OpenAI官网发现,Sora团队由Peebles等3人领导,核心成员包括12人,其中有多位华人。值得注意的是,这支团队十分年轻,成立时间还尚未超过1年。核心突破一:时空Patch,站在Google肩膀上此前,OpenAI在X平台上展示了Sora将静态图像转换为动态视频的几个案例,其逼真程度令人惊叹。Sora是如何做到这一点的呢?这就不得不提到该AI视频模型背后的两项核心技术DiT架构和Spacetime Patch(时空Patch)。据外媒报道,Spacetime Patch是Sora创新的核心之一,该项技术是建立在GoogleDeepMind对NaViT(原生分辨率视觉Transformer)和ViT(视觉Transformer)的早期研究基础上。Patch可以理解为Sora的基本单元,就像GPT-4 的基本单元是Token。Token是文字的片段,Patch则是视频的片段。GPT-4被训练以处理一串Token,并预测出下一个Token。Sora遵循相同的逻辑,可以处理一系列的Patch,并预测出序列中的下一个Patch。Sora之所以能实现突破,在于其通过Spacetime Patch将视频视为补丁序列,Sora保持了原始的宽高比和分辨率,类似于NaViT对图像的处理。这对于捕捉视觉数据的真正本质至关重要,使模型能够从更准确的表达中学习,从而赋予Sora近乎完美的准确性。由此,Sora能够有效地处理各种视觉数据,而无需调整大小或填充等预处理步骤。记者注意到,OpenAI发布的Sora技术报告中透露了Sora的主要理论基础,其中Patch的技术论文名为Patch n‘ Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution。记者查询预印本网站arxiv后发现,该篇研究论文是由GoogleDeepMind的科学家们于2023年7月发表的。图片来源:arxiv.org图片来源:Google Scholar核心突破二:扩散型Transformer架构,相关论文曾遭拒绝除此之外,Sora的另一个重大突破是其所使用的架构,传统的文本到视频模型(如Runway、Stable Diffusion)通常是扩散模型(Diffusion Model),文本模型例如GPT-4则是Transformer模型,而Sora则采用了DiT架构,融合了前述两者的特性。据报道,传统的扩散模型的训练过程是通过多个步骤逐渐向图片增加噪点,直到图片变成完全无结构的噪点图片,然后在生成图片时,逐步减少噪点,直到还原出一张清晰的图片。Sora采用的架构是通过Transformer的编码器-解码器架构处理包含噪点的输入图像,并在每一步预测出更清晰的图像。DiT架构结合时空Patch,让Sora能够在更多的数据上进行训练,输出质量也得到大幅提高。OpenAI发布的Sora技术报告透露,Sora采用的DiT架构是基于一篇名为Scalable diffusion models with transformers的学术论文。记者查询预印本网站arxiv后发现,该篇原作论文是2022年12月由伯克利大学研究人员William (Bill) Peebles和纽约大学的一位研究人员Saining Xie共同发表。William (Bill) Peebles之后加入了OpenAI,领导Sora技术团队。图片来源:arxiv.org然而,戏剧化的是,Meta的AI科学家Yann LeCun在X平台上透露,“这篇论文曾在2023年的计算机视觉会议(CVR2023)上因‘缺少创新性’而遭到拒绝,但在2023年国际计算机视觉会议(ICCV2023)上被接受发表,并且构成了Sora的基础。”图片来源:X平台作为最懂DiT架构的人之一,在Sora发布后,Saining Xie在X平台上发表了关于Sora的一些猜想和技术解释,并表示,“Sora确实令人惊叹,它将彻底改变视频生成领域。”“当Bill和我参与DiT项目时,我们并未专注于创新,而是将重点放在了两个方面:简洁性和可扩展性。”他写道。“简洁性代表着灵活性。关于标准的ViT,人们常忽视的一个亮点是,它让模型在处理输入数据时变得更加灵活。例如,在遮蔽自编码器(MAE)中,ViT帮助我们只处理可见的区块,忽略被遮蔽的部分。同样,Sora可以通过在适当大小的网格中排列随机初始化的区块来控制生成视频的尺寸。”图片来源:X平台不过,他认为,关于Sora仍有两个关键点尚未被提及。一是关于训练数据的来源和构建,这意味着数据很可能是Sora成功的关键因素;二是关于(自回归的)长视频生成,Sora的一大突破是能够生成长视频,但OpenAI尚未揭示相关的技术细节。年轻的开发团队:应届博士带队,还有00后随着Sora的爆火,Sora团队也来到世界舞台的中央,引发了持续的关注。记者查询OpenAI官网发现,Sora团队由William Peebles等3人领导,核心成员包括12人。从团队领导和成员的毕业和入职时间来看,这支团队成立的时间较短,尚未超过1年。图片来源:OpenAI官网从年龄上来看,这支团队也非常年轻,两位研究负责人都是在2023年才刚刚博士毕业。William (Bill) Peebles于去年5月毕业,其与Saining Xie合著的扩散Transformer论文成为Sora的核心理论基础。Tim Brooks于去年1月毕业,是DALL-E 3的作者之一,曾在Google和英伟达就职。图片来源:William (Bill) Peebles个人主页团队成员中甚至还有00后。团队中的Will DePue生于2003年,2022年刚从密西根大学计算机系本科毕业,在今年1月加入Sora项目组。图片来源:Will DePue个人主页此外,团队还有几位华人。据媒体报道,Li Jing是 DALL-E 3 的共同一作,2014年本科毕业于北京大学物理系,2019年获得MIT物理学博士学位,于2022年加入OpenAI。Ricky Wang则是今年1月刚刚从Meta跳槽到OpenAI。其余华人员工包括Yufei Guo等尚未有太多公开资料介绍。 ... PC版: 手机版:

封面图片

OpenAI Sora更强大功能曝光:可一次生成多个视频、拼接展示

OpenAI Sora更强大功能曝光:可一次生成多个视频、拼接展示 OpenAI研究科学家比尔·皮布尔斯(Bill Peebles)在X上发文称,Sora可以同时生成多个并排在一起的视频。根据他在推文中展示的动图,Sora生成了5个人们在下雪天漫步、玩雪的视频。皮布尔斯展示的Sora视频拼贴功能“这是Sora一次性生成的视频样本,并不是我们把5个视频拼接在一起。Sora决定同时拥有五个不同的视角!”皮布尔斯在推文中称。目前,OpenAI尚未向公众开放Sora。OpenAI称,该模型正在接受测试,只分享给了一批精选的研究人员和学者。他们将研究Sora,以寻找该模型被滥用的风险。 ... PC版: 手机版:

封面图片

爆火Sora震惊威尔·史密斯 OpenAI技术路线或早在1月被成功预言

爆火Sora震惊威尔·史密斯 OpenAI技术路线或早在1月被成功预言 你以为,上面是一年前的AI视频,下面是如今的AI视频?错!这个所谓AI生成的视频,其实正是威尔史密斯本人!威尔·史密斯吃意面这个“图灵测试”,曾让Runway、Pika等屡屡翻车。Runway生成的,是这样的但如今,Sora已经做到了逼真似真人、毫无破绽,所以才让威尔史密斯成功骗过了大众,这太可怕了!Sora的出现,其实在今年1月就已被人预言1月5日,一位前阿里的AI专家表示我认为,Transformer框架和LLM路线,将是AI视频的一个突破口和新范式,它将使AI视频更加连贯、一致,并且时长更长。目前的Diffusion+Unet路线(如Runway、Pika等),只是暂时的解决方案。无独有偶,斯坦福学者李飞飞在去年年底,就用Transformer就做出了逼真的视频。而马毅教授也表示,自己团队去年在NeurIPS一篇论文中也已经证实,用Transformer可以实现diffusion和denosing。马毅团队提出:假设数据分布是mixed Gaussians,那Transformer blocks就是在实现diffusion/扩散和denoising/压缩能想到Sora技术路线的,肯定不止一个人。可是全世界第一个把Sora做出来的,就是OpenAI。OpenAI为何总能成功?无他,唯手快尔。Runway和Pika“点歪”的科技树,被OpenAI掰正了在此之前,Runway、Pika等AI视频工具吸引了不少聚光灯。而OpenAI的Sora,不仅效果更加真实,就是把Transformer对前后文的理解和强大的一致性,发挥得淋漓尽致。这个全新的科技树,可真是够震撼的。不过我们在开头也可以看到,OpenAI并不是第一个想到这个的人。Transformer框架+LLM路线这种新范式,其实早已有人想到了。就如同AI大V“阑夕”所言,OpenAI用最简单的话,把最复杂的技术讲清楚了“图片只是单帧的视频。”科技行业这种从容的公共表达,真是前所未见,令人醍醐灌顶。“阑夕”指出,“图片只是单帧的视频”的妙处就在于,图片的创建不会脱离时间轴而存在,Sora实际上是提前给视频写了脚本的。甚至无论用户怎样Prompt,Sora AI都有自己的构图思维。而这,就是困住Runway、Pika等公司最大的问题。它们的思路,基本都是基于一张图片来让AI去想象,完成延伸和填补,从而叠加成视频。比拼的是谁家的AI更能理解用户想要的内容。因此,这些AI视频极易发生变形,如何保持一致性成了登天般的难题。Diffusion Model这一局,是彻底输给Transformer了。ChatGPT故事再次重演,Sora其实站在Google的肩膀上让我们深入扒一扒,Sora是站在哪些前人的肩膀上。简而言之,最大创新Patch的论文,是Google发表的。Diffusion Transformer的论文,来自William Peebles和谢赛宁。此外,Meta等机构、UC伯克利等名校皆有贡献。William Peebles和谢赛宁提出的框架纽约大学计算机系助理教授谢赛宁在分析了Sora的技术报告后表示,Sora应该是基于自己和William Peebles提出的框架设计而成。这篇提出了Sora基础架构的论文,去年被ICCV收录。论文地址: Peebles加入了OpenAI,领导了开发Sora的技术团队。图灵三巨头之一、Meta AI主管LeCun,也转发了谢赛宁的帖子表示认可。巧合的是,谢赛宁是LeCun的前FAIR同事、现纽约大学同事,William Peebles是LeCun的前伯克利学生、现任OpenAI工程师。AI果然是个圈。最近,谢赛宁对说自己是Sora作者的说法进行了辟谣CVPR“有眼不识泰山”,拒掉Sora基础论文有趣的是,Diffusion Transformer这篇论文曾因“缺乏创新性”被CVPR 2023拒收,后来才被ICCV2003接收。谢赛宁表示,他们在DIT项目没有创造太多的新东西,但是两个方面的问题:简单性和可扩展性。这可能就是Sora为什么要基于DIT构建的主要原因。此前,生成模型的方法包括GAN、自回归、扩散模型。它们都有各自的优势和局限性。而Sora引入的,是一种全新的范式转变新的建模技术和灵活性,可以处理各种时间、纵横比和分辨率。Sora所做的,是把Diffusion和Transformer架构结合在一起,创建了diffusion transformer模型。这也即是OpenAI的创新之处。时空Patch是Google的创新时空Patch,是Sora创新的核心。它建立在Google DeepMind早期对NaViT和ViT(视觉Transformer)的研究之上。论文地址:“An Image is Worth 16x16 Words”。论文地址:“Attention Is All You Need”的历史重演。2017年6月12日,8位Google研究人员发表了Attention is All You Need,大名鼎鼎的Transformer横空出世。它的出现,让NLP变了天,成为自然语言领域的主流模型。论文地址:... PC版: 手机版:

封面图片

AI 视频生成 Sora 发布,眼见为实终结

AI 视频生成 Sora 发布,眼见为实终结 OpenAI 再次震撼世界,划时代文本生成视频模型 Sora 正式发布,这是以文本描述生成视频的人工智能模型 Sora 的介绍影片。通过一段文字,Sora 可以创建长达 60 秒的视频,其中包含高度详细的场景、复杂的摄像机运动以及充满活力的情感的多个角色。由于担心 Sora 可能被滥用,OpenAI 表示目前没有计划向公众发布该模型,而是给予小部分研究人员有限的访问权限,以理解模型的潜在危害。 From OpenAI via 开眼精选 (author: 开眼科技精选) Invalid media: video

封面图片

OpenAl Sora 视频生成耗时长:挑战与机遇并存

OpenAl Sora 视频生成耗时长:挑战与机遇并存 OpenAI 发布的Sora模型虽然能够根据文本生成逼真视频,但1分钟视频需要超过1小时渲染时间,反映了当前AI视频生成技术的挑战和未来的改进空间

封面图片

下午察:Sora激起中国科技圈焦虑?

下午察:Sora激起中国科技圈焦虑? 继生成式人工智能(AI)ChatGPT之后,美国AI巨头OpenAI在2月16日凌晨继续震动四方,凭借更逼真的视频生成技术再次出圈。在影视业人士担忧这项AI技术可能让自己失业的同时,中美科技博弈的紧迫感也在升级。 Sora是OpenAI开发的首个AI视频生成模型,只要输入内容、提示词或图片,Sora就能在一秒内生成长达一分钟的高保真视频。 没有导演、专业演员的参与,Sora的视频却能生成出高度细致的背景、复杂的多角度镜头及富有情感的角色。以往视频制作的选址、选演员、分镜构图,架设机位、后期制作等复杂流程,对Sora而言都只是一句话的功夫。 2024年2月20日 8:50 PM

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人