谢赛宁否认系Sora发明人之一:没有一点关系,不要误传了

谢赛宁否认系Sora发明人之一:没有一点关系,不要误传了谢赛宁表示,Sora是bill他们在OpenAI的呕心之作,我虽然不知道细节,但是bill告诉我他们每天基本不睡觉高强度工作了一年。跟我的关系是什么呢,只能说是一点关系都没有。标题党ai写稿,胡乱挂钩,误导事实,结果也有些阅读量了,希望票圈各位点点举报,不要误解、误传,帮忙想想办法早点takeitdown。谢赛宁补充介绍道,“对于Sora这样的复杂系统,人才第一,数据第二,算力第三,其他都没有什么是不可替代的。在问Sora为什么没出现在中国的同时,可能也得问问假设真的出现了(可能很快),我们有没有准备好?”                                    VIP课程推荐                          加载中......PC版:https://www.cnbeta.com.tw/articles/soft/1419071.htm手机版:https://m.cnbeta.com.tw/view/1419071.htm

相关推荐

封面图片

Sora 发明者之一?谢赛宁回应:一点关系都没有

Sora发明者之一?谢赛宁回应:一点关系都没有Sora刷屏,其幕后主创团队也被报道。针对有自媒体称其为Sora发明者之一,谢赛宁在朋友圈及校友群回应称:“Sora是我之前的实习生和OPENAI改变世界的杰作,跟我本人可以说是一点关系都没有。”公开资料显示,谢赛宁本科毕业于上海交通大学,并在加州大学圣迭亚哥分校(UCSD)获得博士和硕士学位。谢赛宁在回应中还表示,“对于Sora这样的复杂系统,人才第一,数据第二,算力第三,其他都没有什么是不可替代的。在问Sora为什么没出现在中国的同时,可能也得问问假设真的出现了(可能很快),我们有没有准备好?”(上证报)

封面图片

Sora爆火100小时:核心团队被扒,卖课狂割韭菜,虚假视频泛滥

Sora爆火100小时:核心团队被扒,卖课狂割韭菜,虚假视频泛滥相比去年GPT-4超长篇幅的作者名单,Sora的作者团队显然更加简短。这些参与者中,已知的核心成员包括研发负责人TimBrooks、William(Bill)Peebles、系统负责人ConnorHolmes等。前两人师出同门,均在2019年进入伯克利深造,直到2023年上半年才一前一后获得博士学位,可以说是非常年轻。值得注意的是,William(Bill)Peebles曾和现任纽约大学计算机科学助理教授谢赛宁一起发表过论文《ScalableDiffusionModelswithTransformers》,该论文研究成果DiT模型被Sora引用,也是这次Sora背后的重要技术基础之一。因为论文的引用也传出了一则谣言,有网友认为谢赛宁是Sora作者之一,目前谢赛宁本人已在朋友圈亲自辟谣。根据谢赛宁的透露,Sora是William(Bill)Peebles等人在OpenAI的呕心沥血之作,每天基本不睡觉高强度工作了一年。要知道,William(Bill)Peebles在2023年3月入职OpenAI,距今刚好不到一年。这也从侧面否定了之前传闻中的“Sora早就开发完成,只是一直没发”的言论。未公测却卖课,新型韭菜收割机?而市场上围绕着Sora的不仅仅有谣言,还有一系列巧立名目的骗局。据知情人士透露,目前市面上一份Sora的课程售价为99元,一天时间就卖出了2万多份。也就是说,卖课者一天至少到手200万元。而课程交付的内容却极其简陋,只有Sora的介绍文档,以及一句口号:“给自己一个机会”。无独有偶,甚至有人号称手上有北美NASA工作人员的资源,已经拿到接口,把Sora打包到GPTs,做成软件发布上线。除此之外,还有搜集各类Sora文章、专有名词等资料,做成飞书文档卖钱的,也有直接套用影视行业专业名词包装成Sora的提示词,让人付费进群领取的,诸如此类各式各样打着Sora旗号收割韭菜的骗局。更甚者还有人为了吸引人付费,不择手段地大力制造焦虑感,到处宣称“Sora的风口最多3个月就消失”、“一步慢,步步慢”,“24小时之内上线了一款连产品都没有发布的课程”。某电商平台上,也有人售卖Sora教程,甚至连宣传海报都是同一款,懒得另外重做。这也直接迫使OpenAI的开发者关系负责人Logan发布紧急声明,称Sora正处于内测阶段,并未对外开放。即使开放,Sora能够作为产品使用的时间也仍旧遥遥无期。而在卖课之外,也有许多人在利用Sora的热度疯狂拉人头,积攒私域流量。例如在朋友圈散发二维码拉人入群,热衷宣扬“Sora首部AI电影共创剧本海选开始!”以及“我们都有机会成为第一代AI导演!”等言论。也有像地推人员一样在AI群中通过私信加好友,以“改变命运”、“破圈”为噱头,索要999元入群,声称共同踏上新世界之门。更谨慎的则会借着Sora的理由,夸大作用将其吹捧成改变命运、实现财富自由的机会,以此为理由推销《短视频矩阵引流解决方案》等相关课程,声称只有先学好这些,才能成为第一批通过Sora赚钱的人。归根结底,Sora带来的AI割韭菜事件,和用小礼品吸引大妈买保健品一样,本质上就是割韭菜,贩卖焦虑赚信息差的钱。真实视频假冒Sora制作,已成流量密码除此之外,给真实视频标注“该作品由人工智能Sora生成”,也成了当下的流量密码。事情的起因还得从Sora公布当天说起,X上有一位博主发布了一段由Sora生成的维多利亚凤冠鸠视频,注明了产生它的指令。同时在开头强调了这样一句话:该视频由OpenAI的新模型Sora生成。视频不出意外得到数千转发,登上了热门,一瞬便激起了广泛的讨论。随后就有不少网友发现,网上除了Sora公开的一小部分影片作品,突然多了许多标注“该视频由OpenAI的新模型Sora生成”的视频,甚至发布者还贴心地附上了“生成指令”。然而实际上,这些视频几乎都是用真实视频假冒的Sora视频,并非Sora生成。比如最近,号称“视频生成界的图灵测试”的威尔·史密斯吃意大利面的视频又重出江湖。视频画面上半段显示是一年以前的AI视频,下半段则显示现在的AI视频。要知道,一年前由AI生成的“威尔·史密斯吃意大利面”视频效果并不理想,其中涉及到处理人物手势、面条形状以及进食动作等方面都面临着巨大挑战。相较之下,据称由Sora生成的视频效果却出奇地出色,生成的手势和面条都表现得非常逼真,似乎已经成功应对了图灵测试。结合最近OpenAI展示的各种Sora生成结果,很多人开始相信:这是Sora生成的新视频,显示出现代视频生成AI已经达到了以假乱真的水平。然而,实际情况却是该视频并非由Sora生成,而是由威尔·史密斯本人亲自录制。那Sora究竟能不能生成吃意大利面的场景呢?这个问题目前还没有测试结果。有网友调侃,现在怎么分辨真的真视频,假的真视频,真的假视频,假的假视频,是一大难题。很显然,视频界的混淆矩阵已经出来了。关于这个问题,也引起了很多专业人士的热议。Keras之父FrançoisChollet就表示,像Sora这样的视频生成模型确实嵌入了物理模型,但问题是:这个物理模型是否准确?它能否泛化到新的情况,即那些不仅仅是训练数据插值的情形?简单来说,就是FrançoisChollet认为,Sora只达到了人类做梦的水平,但是逻辑能力依然不行。从Sora官方公布的视频中,也可以观察到一些逻辑错误,进一步证实了这个问题。未来,Sora距离真正“以假乱真”还有一段很长的路要走。...PC版:https://www.cnbeta.com.tw/articles/soft/1419483.htm手机版:https://m.cnbeta.com.tw/view/1419483.htm

封面图片

Node.js发明人敦促甲骨文放手JavaScript商标

Node.js发明人敦促甲骨文放手JavaScript商标DevClass报道称:作为Node.js和Deno的发起人,RyanDahl已向甲骨文公司致去一封公开信,恳请该公司将JavaScript商标释放到公共领域。他写道:“这个商标已成为笼罩在世界上最流行的编程语言上的一片乌云,谨慎守法的工程师会竭力避免使用,并导致诸如ECMAScript之类让人感到困惑的术语的出现”。官网截图RyanDahl还附上了指向NetscapeCommunications于1995年发布JavaScript时的初始新闻稿的链接。长期以来,无论商标权属如何变化,该语言的名称一直让人们误以为它是Java的变体。然而Netscape曾表示JavaScript是对Java的补充和集成,设想是能够与网页上的Java小程序进行交互。尽管实质性工作不算太高级,但作为两款‘花括号’语言,JavaScript与Java语言几乎没有共同之处此外JavaScript发明人BrendanEich上月表示——“JavaScript这个名字完全是个幌子,它与Java的关系不大、且语法上都与同一个老祖(C语言)相关”。截图(来自:TinyClouds.org)DevClass指出,商标的原意是保护产品不被竞争对手抄袭或假冒。当微软想出一个用于IE浏览器的JavaScript实现时,曾把它叫做JScript、后又制作了一个.NET版本。然后网景(Netscape)与包括微软在内的其它公司合作,通过Ecma国际标准机构对该语言开展了标准化改造。即便ECMAScript听起来有些难以理解、且像是一个不太受欢迎的商标,但名词本身还是中性的。遗憾的是,当甲骨文于2010年收购Sun时,它也一并获得了JavaScript的商标。法理上,这意味着只有该公司可以将一种语言称作JavaScript,但甲骨文却一直将它晾在了一旁。RyanDahl指出,甲骨文没有任何使用该商标的产品——尽管正如HackerNews评论所观察到的那样,该公司确有提供包含JavaScript实现的GraalVM。另一方面,Oracle并未在其商标指南中明确提及JavaScript(但有谈到Java和MySQL)。该指南指出:“正确使用甲骨文商标,可加强其作为我们产品和服务的品牌效用、并有助于防止其成为任何人都可用的通用名称”。最后,DevClass已向Oracle发去置评请求,但截止发稿时,该公司尚未作出回应。PC版:https://www.cnbeta.com/articles/soft/1313311.htm手机版:https://m.cnbeta.com/view/1313311.htm

封面图片

这是构成Sora基础之一的Diffusion Transformer论文作者关于Sora的一些猜测和技术解释。#ai视频#Sor

这是构成Sora基础之一的DiffusionTransformer论文作者关于Sora的一些猜测和技术解释。这个老哥可能是除了这篇论文的另一个作者(现在在OpenAI工作)之外最懂DiffusionTransformer的人了,非常值得关注。有趣的是这篇论文曾经在2023年的计算机视觉会议(CVR2023)上因“缺少创新性”而遭到拒绝,短短一年时间就变成了Sora这怪物模型的理论基础。-------------正文开始-------------以下是我对Sora技术报告的解读,其中包含了一些可能并不准确的猜测。首先,我非常感谢团队分享了极为有价值的见解和设计决策——Sora确实令人惊叹,它将彻底改变视频生成领域。我们目前所了解到的情况如下:架构:Sora基于我们的扩散变换器(DiffusionTransformer,简称DiT)模型构建,该模型已发表在2023年国际计算机视觉会议(ICCV2023)上。简单来说,它是一个结合了变换器(Transformer)主干的扩散模型:DiT=[变分自编码器(VAE)编码器+视觉变换器(ViT)+去噪扩散概率模型(DDPM)+VAE解码器]。根据报告,这个模型似乎没有太多额外的复杂设计。“视频压缩网络”:这看起来就像是一个在原始视频数据上训练的变分自编码器(VAE)。在实现良好的时间一致性方面,标记化(Tokenization)可能扮演着关键角色。顺便提一下,VAE本质上是一个卷积网络,所以从技术上说,DiT实际上是一个混合模型。;)当Bill和我参与DiT项目时,我们并未专注于创新(详见我之前的推特),而是将重点放在了两个方面:简洁性和可扩展性。这些优先事项带来的不仅仅是概念上的优势。简洁性代表着灵活性。关于标准的视觉变换器(ViT),人们常忽视的一个亮点是,它让模型在处理输入数据时变得更加灵活。例如,在遮蔽自编码器(MAE)中,ViT帮助我们只处理可见的区块,忽略被遮蔽的部分。同样,Sora可以通过在适当大小的网格中排列随机初始化的区块来控制生成视频的尺寸。而UNet并不直接提供这种灵活性。猜测:Sora可能还使用了Google的Patchn’Pack(NaViT)技术,使DiT能够适应不同的分辨率、持续时间和长宽比。

封面图片

爆火Sora震惊威尔·史密斯 OpenAI技术路线或早在1月被成功预言

爆火Sora震惊威尔·史密斯OpenAI技术路线或早在1月被成功预言你以为,上面是一年前的AI视频,下面是如今的AI视频?错!这个所谓AI生成的视频,其实正是威尔史密斯本人!威尔·史密斯吃意面这个“图灵测试”,曾让Runway、Pika等屡屡翻车。Runway生成的,是这样的——但如今,Sora已经做到了逼真似真人、毫无破绽,所以才让威尔史密斯成功骗过了大众,这太可怕了!Sora的出现,其实在今年1月就已被人预言1月5日,一位前阿里的AI专家表示——我认为,Transformer框架和LLM路线,将是AI视频的一个突破口和新范式,它将使AI视频更加连贯、一致,并且时长更长。目前的Diffusion+Unet路线(如Runway、Pika等),只是暂时的解决方案。无独有偶,斯坦福学者李飞飞在去年年底,就用Transformer就做出了逼真的视频。而马毅教授也表示,自己团队去年在NeurIPS一篇论文中也已经证实,用Transformer可以实现diffusion和denosing。马毅团队提出:假设数据分布是mixedGaussians,那Transformerblocks就是在实现diffusion/扩散和denoising/压缩能想到Sora技术路线的,肯定不止一个人。可是全世界第一个把Sora做出来的,就是OpenAI。OpenAI为何总能成功?无他,唯手快尔。Runway和Pika“点歪”的科技树,被OpenAI掰正了在此之前,Runway、Pika等AI视频工具吸引了不少聚光灯。而OpenAI的Sora,不仅效果更加真实,就是把Transformer对前后文的理解和强大的一致性,发挥得淋漓尽致。这个全新的科技树,可真是够震撼的。不过我们在开头也可以看到,OpenAI并不是第一个想到这个的人。Transformer框架+LLM路线这种新范式,其实早已有人想到了。就如同AI大V“阑夕”所言,OpenAI用最简单的话,把最复杂的技术讲清楚了——“图片只是单帧的视频。”科技行业这种从容的公共表达,真是前所未见,令人醍醐灌顶。“阑夕”指出,“图片只是单帧的视频”的妙处就在于,图片的创建不会脱离时间轴而存在,Sora实际上是提前给视频写了脚本的。甚至无论用户怎样Prompt,SoraAI都有自己的构图思维。而这,就是困住Runway、Pika等公司最大的问题。它们的思路,基本都是基于一张图片来让AI去想象,完成延伸和填补,从而叠加成视频。比拼的是谁家的AI更能理解用户想要的内容。因此,这些AI视频极易发生变形,如何保持一致性成了登天般的难题。DiffusionModel这一局,是彻底输给Transformer了。ChatGPT故事再次重演,Sora其实站在Google的肩膀上让我们深入扒一扒,Sora是站在哪些前人的肩膀上。简而言之,最大创新Patch的论文,是Google发表的。DiffusionTransformer的论文,来自WilliamPeebles和谢赛宁。此外,Meta等机构、UC伯克利等名校皆有贡献。WilliamPeebles和谢赛宁提出的框架纽约大学计算机系助理教授谢赛宁在分析了Sora的技术报告后表示,Sora应该是基于自己和WilliamPeebles提出的框架设计而成。这篇提出了Sora基础架构的论文,去年被ICCV收录。论文地址:https://arxiv.org/abs/2212.09748随后,WilliamPeebles加入了OpenAI,领导了开发Sora的技术团队。图灵三巨头之一、MetaAI主管LeCun,也转发了谢赛宁的帖子表示认可。巧合的是,谢赛宁是LeCun的前FAIR同事、现纽约大学同事,WilliamPeebles是LeCun的前伯克利学生、现任OpenAI工程师。AI果然是个圈。最近,谢赛宁对说自己是Sora作者的说法进行了辟谣CVPR“有眼不识泰山”,拒掉Sora基础论文有趣的是,DiffusionTransformer这篇论文曾因“缺乏创新性”被CVPR2023拒收,后来才被ICCV2003接收。谢赛宁表示,他们在DIT项目没有创造太多的新东西,但是两个方面的问题:简单性和可扩展性。这可能就是Sora为什么要基于DIT构建的主要原因。此前,生成模型的方法包括GAN、自回归、扩散模型。它们都有各自的优势和局限性。而Sora引入的,是一种全新的范式转变——新的建模技术和灵活性,可以处理各种时间、纵横比和分辨率。Sora所做的,是把Diffusion和Transformer架构结合在一起,创建了diffusiontransformer模型。这也即是OpenAI的创新之处。时空Patch是Google的创新时空Patch,是Sora创新的核心。它建立在GoogleDeepMind早期对NaViT和ViT(视觉Transformer)的研究之上。论文地址:https://arxiv.org/abs/2307.06304而这项研究,又是基于一篇2021年的论文“AnImageisWorth16x16Words”。论文地址:https://arxiv.org/abs/2010.11929传统上,对于视觉Transformer,研究者都是使用一系列图像Patch来训练用于图像识别的Transformer模型,而不是用于语言Transformer的单词。这些Patch,能使我们能够摆脱卷积神经网络进行图像处理。然而,视觉Transforemr对图像训练数据的限制是固定的,这些数据的大小和纵横比是固定的,这就限制了质量,并且需要大量的图像预处理。而通过将视频视为Patch序列,Sora保持了原始的纵横比和分辨率,类似于NaViT对图像的处理。这种保存,对于捕捉视觉数据的真正本质至关重要!通过这种方法,模型能够从更准确的世界表示中学习,从而赋予Sora近乎神奇的准确性。时空Patch的可视化GooglePatch的论文,发表于2021年。3年后,OpenAI基于这项技术,做出了Sora。这段历史看起来是不是有点眼熟?简直就像“AttentionIsAllYouNeed”的历史重演。2017年6月12日,8位Google研究人员发表了AttentionisAllYouNeed,大名鼎鼎的Transformer横空出世。它的出现,让NLP变了天,成为自然语言领域的主流模型。论文地址:https://arxiv.org/pdf/1706.03762.pdf它完全摒弃了递归结构,依赖注意力机制,挖掘输入和输出之间的关系,进而实现了并行计算。在Google看来,Transformer是一种语言理解的新型神经网络架构。不过它当初被设计出来,是为了解决翻译问题。而后来,Transformer架构被OpenAI拿来发扬光大,成为ChatGPT这类LLM的核心。2022年,OpenAI用Google17年发表的Transformer做出ChatGPT。2024年,OpenAI用Google21年发表的Patch做出Sora。这也让人不由感慨:诚如《为什么伟大不能被计划》一书中所言,伟大的成就与发明,往往是偏离最初计划的结果。前人的无心插柳,给后人的成功做好了奠基石,而一条成功的道路是如何踏出的,完全是出于偶然。Meta微软UC伯克利斯坦福MIT亦有贡献此外,从Sora参考文献中可以看出,多个机构和名校都对Sora做出了贡献。比如,用Transformer做扩散模型的去噪骨干这个方法,早已被斯坦福学者李飞飞证明。在去年12月,李飞飞携斯坦福联袂Google,用Transformer生成了逼真视频。生成的效果可谓媲美Gen-2比肩Pika,当时许多人激动地感慨——2023年已成AI视频元年,谁成想2024一开年,OpenAI新的震撼就来了!李飞飞团队做的,是一个在共享潜空间中训练图像和视频生成的,基于Transformer的扩散模型。史上首次,AI学者证明了:Transformer架构可以将图像和视频编码到一个共享的潜空间中!论文:https://walt-video-diffusion.github.io/assets/W.A.L.T.pdfMSRA和北大联合团队提出的统一多模态预训练模型——NÜWA(女娲),也为Sora做出了贡献。此前的多模态模型要么只能处理图像,要么只能处理视频,而NÜWA则可以为各种视觉合成任务,生成新的图像和视频数据。项目地址:https://github.com/microsoft/NUWA为了在不同场景下同时覆盖语言、图像和视频,团队设计了一个三维变换器编码器-解码器框架。它不仅可以处理作为三维数据的视频,还可以适应分别作为一维和二维数据的文本和图像。在8个下游任务中,NÜWA都取得了新的SOTA,在文本到图像生成中的表现,更是直接超越了DALL-E。NÜWA模型支持的8种典型视觉生成任务草蛇灰线,伏脉千里。踩在前人的肩膀上,通过敏锐的直觉和不眠不休的高强度工作,OpenAI的研究者...PC版:https://www.cnbeta.com.tw/articles/soft/1419363.htm手机版:https://m.cnbeta.com.tw/view/1419363.htm

封面图片

谢锋︰中美关系正面临前所未有严峻挑战

谢锋︰中美关系正面临前所未有严峻挑战中国驻美国大使谢锋表示,中美之间的确有竞争,中国人不怕竞争,但必须公平公正。竞争应是你追我赶的田径赛,而不是你死我活的拳击赛。谢锋访问哈佛大学,应邀与该校甘迺迪政府学院创始院长艾利森举行谈话。谢锋指出,中美关系已成为世界上最重要的双边关系,同时正面临前所未有的严峻挑战,青年一代能否像父辈一样,继续享受持续近80年的和平与发展红利,很大程度上取决于中美能否找到新时期正确相处之道。在谈及中美合作与竞争时,谢锋表示,美国现在不是在竞争,而是搞霸凌。竞争不是中美关系的全部,两国在很多领域还有合作,中国反对以竞争定义整个中美关系。如果任由竞争主导中美关系,祗会带来双输多输的战略风险。一边打著竞争的旗号打压、围堵、遏制中国,一边又声称要管控竞争、避免直接冲突,更是自欺欺人。2024-04-2208:26:07(2)

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人