Sora震撼科技影视界 网红褒贬不一 有的等不及想用

Sora震撼科技影视界网红褒贬不一有的等不及想用美国人工智能(AI)公司OpenAI上周宣布推出由文本转为影片的生成式AI模型Sora,可让用户透过简单的文字指令立即创造出逼真的、最长60秒的影片,随即震撼科技和影视圈,连日引发热议,内容创造者亦担忧他们将是最新一批“饭碗被砸”的专业人士。https://www.sinchew.com.my/?p=5409960

相关推荐

封面图片

下午察:Sora激起中国科技圈焦虑?

下午察:Sora激起中国科技圈焦虑?继生成式人工智能(AI)ChatGPT之后,美国AI巨头OpenAI在2月16日凌晨继续震动四方,凭借更逼真的视频生成技术再次出圈。在影视业人士担忧这项AI技术可能让自己失业的同时,中美科技博弈的紧迫感也在升级。Sora是OpenAI开发的首个AI视频生成模型,只要输入内容、提示词或图片,Sora就能在一秒内生成长达一分钟的高保真视频。没有导演、专业演员的参与,Sora的视频却能生成出高度细致的背景、复杂的多角度镜头及富有情感的角色。以往视频制作的选址、选演员、分镜构图,架设机位、后期制作等复杂流程,对Sora而言都只是一句话的功夫。2024年2月20日8:50PM

封面图片

掌阅科技:以 Sora 为代表的文生视频技术的发展,对公司 IP 转化将提供助力

掌阅科技:以Sora为代表的文生视频技术的发展,对公司IP视频转化将提供助力掌阅科技在互动平台表示,公司有大量的优质网文IP储备,2023年以来公司在网文IP改编短剧方面取得了较大成效;以SORA为代表的文生视频技术的发展,将有力助推网文IP的视频化,对公司IP的视频转化也将提供助力。从ChatGPT诞生以来,公司积极拥抱AI技术,致力于利用AI技术提升用户阅读体验和阅读效率,并积极向多模态内容形态发展,但截至目前,公司尚无IP直接通过AI转化成短剧或者影视内容的案例。

封面图片

掌阅科技:公司尚无 IP 直接通过 AI 转化成短剧或影视内容的案例

掌阅科技:公司尚无IP直接通过AI转化成短剧或影视内容的案例掌阅科技在互动平台表示,公司有大量的优质网文IP储备,2023年以来公司在网文IP改编短剧方面取得了较大成效;以Sora为代表的文生视频技术的发展,将有力助推网文IP的视频化,对公司IP的视频转化也将提供助力。从ChatGPT诞生以来,公司积极拥抱AI技术,致力于利用AI技术提升用户阅读体验和阅读效率,并积极向多模态内容形态发展,但截至目前,公司尚无IP直接通过AI转化成短剧或者影视内容的案例。

封面图片

Sora炸裂科技圈:真神还是焦虑制造机?

Sora炸裂科技圈:真神还是焦虑制造机?▲图:主角出场镜头拉近,可以清晰看到小美修长的脖子和优美的下颌线,让整个画面充满了令人无法抗拒的神秘和美感。▲图:细节展示实际上,整个短视频中,从街景到行人,包括小美,在现实中根本不存在。这是OpenAI最新产品Sora制作的演示视频,而正是这个视频,让周鸿祎做出了AGI发展将会10倍提速的预言。传统方式制作这样一段1分钟的视频成本非常高。除了需要选址,选演员,提前进行分镜构图,架设机位外等,想要碰上如此理想的天气,还需要赌一赌运气。落日转瞬即逝,一旦失误就只能第二天重头来过。拍摄完成后,是非常耗时的后期制作。不仅要调整画面色调,还要仔细核对画面中是否有瑕疵,比如眼镜反射的画面会不会导致穿帮、路人中是否出现不协调元素等等。但Sora出马,全部流程就是(字面意义上的)一句话的事。Sora官网上公布了十几段“制作”精良的高清演示短片,从现实人物到3D动画,所有短片都是通过一句话生成的。▲图:Sora展示视频看过这些短片后,我科技圈的朋友集体表示“炸裂”;大众圈的朋友表示“AI都到了这种程度了吗”;而摄影圈的朋友表示,尽管还是能看出和人类摄影师有一点点差距,但依然被Sora的效果震撼了,进而纷纷开始和我讨论起失业以后,除了送外卖还可以从事什么工作。但如果我们抛开网上铺天盖地、对Sora近乎玄幻的赞誉,跳出官网演示视频的魅惑就会发现,Sora本质上是生成式AI在视频领域的一个应用,一个diffusiontransformer模型。而官方宣传的Sora所有功能,例如通过文字或者图片生成高清短视频,在此基础上进行扩展生成一段更长的视频等,其实很多公司都在做。比较知名的产品包括已经商用的Runway,免费的Pika,以及还在完善阶段的GoogleLumiere、MetaMake-A-Video,还有一些知名度稍低的产品如Leonardo,FinalFrame等等。这里就有一个很大的疑问:凭什么出圈的又是Sora,它真有网上说的那么神吗?凭借更逼真的效果OpenAI再次出圈1月24日,Google研究人员公布了一段Lumiere的演示视频。画质非常高清,且真实。▲图:由Lumiere生成的游泳海龟视频Lumiere除了可以生成真实图片外,还可以实现一键换装、根据图片和提示词生成动态视频等功能。▲图:一键换装▲图:通过图片生成视频2月15日,刚刚过完情人节的Google在疯狂星期四又重磅推出了下一代AI产品Gemini1.5。在此前的演示视频中,Gemini已经展现了其在图像识别和多轮对话中的逆天能力。演示视频中,演示人员画了一个类似鸭子的轮廓让Gemini辨认,Gemini表示它觉得像个鸟。▲图:Gemini演示但是当演示人员画上了波浪后,Gemini表示通过长脖子长嘴又会游泳这几个依据,判断这是只鸭子。▲图:Gemini演示随后演示人员拿了个玩具小鸭子问Gemini这个东西是什么材质做的,Gemini表示看起来可能是橡胶也可能是塑料。而当演示人员捏响橡胶鸭子后,Gemini立刻判断出是用柔软的橡胶做成的。▲图:Gemini演示就在圈内很多人认为Google将要凭借Lumiere和Gemini拿下今年头条的时候,OpenAI仅仅用Sora就轻松获得了更高的关注度。Sora这个词很有意思,它在韩语中表示海螺壳,在日语中表示天空,在芬兰语中表示砂砾。这就很难不让人想到《海底两万里》的鹦鹉螺号,《沙丘》,以及“我们的目标是星辰大海”的豪情壮志。而且Sora是一个比较常见的名字,比Lumiere(法语,光)更短、更好读。和GPT当年的故事如出一辙,Sora也是踩着竞争对手以碾压式的优势胜出。相比同类产品,Sora能抓住提示词的精髓,巧妙地生成具有多个角色和特定动作的场景。有人做过对比,使用同样的提示词,让AI生成一个在花园里、似乎正在追逐什么东西、快乐奔跑的黄白相间的猫,最终结果的差距十分明显。▲图:不同AI产品的效果对比上面由Sora生成的视频看起来非常真实,甚至在奔跑时候,猫腮帮子上的毛都会随着脑袋起伏。而下面通过Pika,Runway,Leonardo,FinalFrame生成的视频,猫不仅看起来不像真的,连动作都很诡异。在生成的视频时长上,Sora也碾压友商。Sora可以生成1分钟的视频,相对的,Pika是3秒,Runway是4秒,Lumiere是5秒。最重要的是,Sora有望解决一个生成式AI的痛点,那就是同样的提示词通常不会生成同样的结果,例如“黄白相间的猫”这个提示词,不同的视频里会出现不同模样的黄白相间的猫。导致的结果,就是无法通过拼接来创作更长的视频。尽管Sora一出道就秀出了远超同行的肌肉,但Sora并没有选择像Pika、Runway一样,开放给大众使用,而是采取了Google、Meta类似的保守策略,先官宣来吊足大家胃口,然后慢慢内测,等待一个合适的时机,再向大众开放。因为,有很多关键问题,大家都没有找到好的解决方案。AI一调皮人类就头疼生成式AI天生就有一个“不按物理定律出牌”的老毛病,即便是看起来已经非常接近真实世界的Sora也不例外。这个问题过于明显,以至于OpenAI都懒得去遮掩,干脆自己先大方的说了出来。从内测用户流出的视频可以发现,Sora无视物理法则随意发挥的意愿十分高涨,而这种意愿在“必须还原物理世界”的规则约束下,很容易生成像人类做梦一样的场景。有过做梦经历的朋友应该会这样的体会:明明梦是虚幻的,但在梦里你的感受又很“真实”。下面就是个很典型的例子。▲图:Sora的梦境物理注意看,视频中的这个杯子莫名其妙的跳了起来并侧翻在桌面上,杯中的液体在杯子跳起来的一瞬间穿透了杯底铺满桌面,而最终杯子连同里面剩余的液体一起,融进了桌面。▲图:融进桌面的杯子这样的视频显然无法应用在正式的场合,大概率只能出现在B站的鬼畜区,告诉你一个学了3年动画的人,是如何因为一个毕业作品被老师轰出门外的故事。此外,Sora对算力有很高的要求。下面这个视频演示了低算力和高算力之间的差距能有多可怕。▲图:算力差距而想要高算力,就得花更多的钱。以Runway为例,个人版收费模式分3档,标准版为每月15美元,可以制作一个125秒的Gen-1视频,或者44秒的Gen-2视频,相当于每秒1-2.4元人民币,超出部分需要额外付费。Pro版每月35美元,至尊版每月95美元。而用户如果希望加快视频的产出效率,也需要额外购买“时间”。能力越大危险越大生成式AI在社会层面有几个老生常谈的问题。首先就是造假问题。AI生成的视频越真实,造假就越容易。最直接的解决办法是将AI生成的内容打上一个特殊的标签,以便于平台将其和人工拍摄的视频进行区分,OpenAI和Google的确也在做这件事。但水印的问题在于,它可以在分享的过程中会被人恶意抹除。例如通过截图、录屏的方式获得视频副本,不会带有任何水印。其次是版权问题。版权问题比造假更加复杂,它既是一个形而上的宏大概念,又和每一个创作者的个人利益息息相关。目前对版权的争论主要集中在AI和人类对齐的过程中,比如,AI通过学习别的艺术家的风格在此基础上进行的创作,和人类以同样方式进行的创作,本质上有没有区别?而更直白的问题则是,AI到底是来帮我赚钱的,还是来跟我抢钱呢?这些问题一个比一个难解决,也就意味着Sora们至少在短时间内不会向公众开放。从某种角度来看,这或许对于视频制作者是一个好消息,至少有了更多的缓冲时间,来思考如何应对接下来Sora们带来的冲击。无论如何,Sora们向公众开放,只是时间问题,至于会不会像周鸿祎预言的那么快,可能还存在疑问。但有一点毫无疑问:那时候的Sora们,...PC版:https://www.cnbeta.com.tw/articles/soft/1419351.htm手机版:https://m.cnbeta.com.tw/view/1419351.htm

封面图片

爆火Sora震惊威尔·史密斯 OpenAI技术路线或早在1月被成功预言

爆火Sora震惊威尔·史密斯OpenAI技术路线或早在1月被成功预言你以为,上面是一年前的AI视频,下面是如今的AI视频?错!这个所谓AI生成的视频,其实正是威尔史密斯本人!威尔·史密斯吃意面这个“图灵测试”,曾让Runway、Pika等屡屡翻车。Runway生成的,是这样的——但如今,Sora已经做到了逼真似真人、毫无破绽,所以才让威尔史密斯成功骗过了大众,这太可怕了!Sora的出现,其实在今年1月就已被人预言1月5日,一位前阿里的AI专家表示——我认为,Transformer框架和LLM路线,将是AI视频的一个突破口和新范式,它将使AI视频更加连贯、一致,并且时长更长。目前的Diffusion+Unet路线(如Runway、Pika等),只是暂时的解决方案。无独有偶,斯坦福学者李飞飞在去年年底,就用Transformer就做出了逼真的视频。而马毅教授也表示,自己团队去年在NeurIPS一篇论文中也已经证实,用Transformer可以实现diffusion和denosing。马毅团队提出:假设数据分布是mixedGaussians,那Transformerblocks就是在实现diffusion/扩散和denoising/压缩能想到Sora技术路线的,肯定不止一个人。可是全世界第一个把Sora做出来的,就是OpenAI。OpenAI为何总能成功?无他,唯手快尔。Runway和Pika“点歪”的科技树,被OpenAI掰正了在此之前,Runway、Pika等AI视频工具吸引了不少聚光灯。而OpenAI的Sora,不仅效果更加真实,就是把Transformer对前后文的理解和强大的一致性,发挥得淋漓尽致。这个全新的科技树,可真是够震撼的。不过我们在开头也可以看到,OpenAI并不是第一个想到这个的人。Transformer框架+LLM路线这种新范式,其实早已有人想到了。就如同AI大V“阑夕”所言,OpenAI用最简单的话,把最复杂的技术讲清楚了——“图片只是单帧的视频。”科技行业这种从容的公共表达,真是前所未见,令人醍醐灌顶。“阑夕”指出,“图片只是单帧的视频”的妙处就在于,图片的创建不会脱离时间轴而存在,Sora实际上是提前给视频写了脚本的。甚至无论用户怎样Prompt,SoraAI都有自己的构图思维。而这,就是困住Runway、Pika等公司最大的问题。它们的思路,基本都是基于一张图片来让AI去想象,完成延伸和填补,从而叠加成视频。比拼的是谁家的AI更能理解用户想要的内容。因此,这些AI视频极易发生变形,如何保持一致性成了登天般的难题。DiffusionModel这一局,是彻底输给Transformer了。ChatGPT故事再次重演,Sora其实站在Google的肩膀上让我们深入扒一扒,Sora是站在哪些前人的肩膀上。简而言之,最大创新Patch的论文,是Google发表的。DiffusionTransformer的论文,来自WilliamPeebles和谢赛宁。此外,Meta等机构、UC伯克利等名校皆有贡献。WilliamPeebles和谢赛宁提出的框架纽约大学计算机系助理教授谢赛宁在分析了Sora的技术报告后表示,Sora应该是基于自己和WilliamPeebles提出的框架设计而成。这篇提出了Sora基础架构的论文,去年被ICCV收录。论文地址:https://arxiv.org/abs/2212.09748随后,WilliamPeebles加入了OpenAI,领导了开发Sora的技术团队。图灵三巨头之一、MetaAI主管LeCun,也转发了谢赛宁的帖子表示认可。巧合的是,谢赛宁是LeCun的前FAIR同事、现纽约大学同事,WilliamPeebles是LeCun的前伯克利学生、现任OpenAI工程师。AI果然是个圈。最近,谢赛宁对说自己是Sora作者的说法进行了辟谣CVPR“有眼不识泰山”,拒掉Sora基础论文有趣的是,DiffusionTransformer这篇论文曾因“缺乏创新性”被CVPR2023拒收,后来才被ICCV2003接收。谢赛宁表示,他们在DIT项目没有创造太多的新东西,但是两个方面的问题:简单性和可扩展性。这可能就是Sora为什么要基于DIT构建的主要原因。此前,生成模型的方法包括GAN、自回归、扩散模型。它们都有各自的优势和局限性。而Sora引入的,是一种全新的范式转变——新的建模技术和灵活性,可以处理各种时间、纵横比和分辨率。Sora所做的,是把Diffusion和Transformer架构结合在一起,创建了diffusiontransformer模型。这也即是OpenAI的创新之处。时空Patch是Google的创新时空Patch,是Sora创新的核心。它建立在GoogleDeepMind早期对NaViT和ViT(视觉Transformer)的研究之上。论文地址:https://arxiv.org/abs/2307.06304而这项研究,又是基于一篇2021年的论文“AnImageisWorth16x16Words”。论文地址:https://arxiv.org/abs/2010.11929传统上,对于视觉Transformer,研究者都是使用一系列图像Patch来训练用于图像识别的Transformer模型,而不是用于语言Transformer的单词。这些Patch,能使我们能够摆脱卷积神经网络进行图像处理。然而,视觉Transforemr对图像训练数据的限制是固定的,这些数据的大小和纵横比是固定的,这就限制了质量,并且需要大量的图像预处理。而通过将视频视为Patch序列,Sora保持了原始的纵横比和分辨率,类似于NaViT对图像的处理。这种保存,对于捕捉视觉数据的真正本质至关重要!通过这种方法,模型能够从更准确的世界表示中学习,从而赋予Sora近乎神奇的准确性。时空Patch的可视化GooglePatch的论文,发表于2021年。3年后,OpenAI基于这项技术,做出了Sora。这段历史看起来是不是有点眼熟?简直就像“AttentionIsAllYouNeed”的历史重演。2017年6月12日,8位Google研究人员发表了AttentionisAllYouNeed,大名鼎鼎的Transformer横空出世。它的出现,让NLP变了天,成为自然语言领域的主流模型。论文地址:https://arxiv.org/pdf/1706.03762.pdf它完全摒弃了递归结构,依赖注意力机制,挖掘输入和输出之间的关系,进而实现了并行计算。在Google看来,Transformer是一种语言理解的新型神经网络架构。不过它当初被设计出来,是为了解决翻译问题。而后来,Transformer架构被OpenAI拿来发扬光大,成为ChatGPT这类LLM的核心。2022年,OpenAI用Google17年发表的Transformer做出ChatGPT。2024年,OpenAI用Google21年发表的Patch做出Sora。这也让人不由感慨:诚如《为什么伟大不能被计划》一书中所言,伟大的成就与发明,往往是偏离最初计划的结果。前人的无心插柳,给后人的成功做好了奠基石,而一条成功的道路是如何踏出的,完全是出于偶然。Meta微软UC伯克利斯坦福MIT亦有贡献此外,从Sora参考文献中可以看出,多个机构和名校都对Sora做出了贡献。比如,用Transformer做扩散模型的去噪骨干这个方法,早已被斯坦福学者李飞飞证明。在去年12月,李飞飞携斯坦福联袂Google,用Transformer生成了逼真视频。生成的效果可谓媲美Gen-2比肩Pika,当时许多人激动地感慨——2023年已成AI视频元年,谁成想2024一开年,OpenAI新的震撼就来了!李飞飞团队做的,是一个在共享潜空间中训练图像和视频生成的,基于Transformer的扩散模型。史上首次,AI学者证明了:Transformer架构可以将图像和视频编码到一个共享的潜空间中!论文:https://walt-video-diffusion.github.io/assets/W.A.L.T.pdfMSRA和北大联合团队提出的统一多模态预训练模型——NÜWA(女娲),也为Sora做出了贡献。此前的多模态模型要么只能处理图像,要么只能处理视频,而NÜWA则可以为各种视觉合成任务,生成新的图像和视频数据。项目地址:https://github.com/microsoft/NUWA为了在不同场景下同时覆盖语言、图像和视频,团队设计了一个三维变换器编码器-解码器框架。它不仅可以处理作为三维数据的视频,还可以适应分别作为一维和二维数据的文本和图像。在8个下游任务中,NÜWA都取得了新的SOTA,在文本到图像生成中的表现,更是直接超越了DALL-E。NÜWA模型支持的8种典型视觉生成任务草蛇灰线,伏脉千里。踩在前人的肩膀上,通过敏锐的直觉和不眠不休的高强度工作,OpenAI的研究者...PC版:https://www.cnbeta.com.tw/articles/soft/1419363.htm手机版:https://m.cnbeta.com.tw/view/1419363.htm

封面图片

OpenAI发布7部超现实Sora作品:气球人、3D影像和带翅膀的长颈鹿

OpenAI发布7部超现实Sora作品:气球人、3D影像和带翅膀的长颈鹿第一个视频:shykids-《气球人》沃尔特导演了《气球人》并评论说:“Sora生成现实事物视频所展现出的场景是非常棒的,而更激动人心的是它还可以制作完全超现实的东西。”比如,影片中的气球人在刮风的日子会让他的头从肩膀上吹下来,当他走过植物商店的仙人掌旁边时,他也必须要小心翼翼的。第二个视频:保罗·特里洛,导保罗·特里洛是一位多学科艺术家、作家和导演,其作品获得了《滚石》和《纽约客》等媒体的赞誉。保罗获得了19个Vimeo员工精选奖,这是授予在Vimeo上托管的最佳短片的荣誉。该导演表示:“与Sora合作使我作为电影制作人而感到自由,不受时间、金钱、他人许可的限制,我可以以大胆和令人兴奋的方式构思和创作。”第三个视频:尼克·克莱沃洛夫,创意总监/NativeforeigNativeforeign是一家来自加利福尼亚州洛杉矶的艾美提名创意机构,专注于品牌叙事、动态标题设计以及生成式AI工作流程。联合创始人尼克·克莱沃洛夫正在使用Sora进行可视化并丰富个人的创意,他认为“当我在使用Sora时,真的感觉我可以将任何想法变为现实。”第四个视频:奥古斯特·坎普,艺术家/音乐家奥古斯特·坎普是一位音乐家、研究员、创意活动家和多学科艺术家。他分享到自己的使用体验:“对我来说,Sora是艺术家生涯的巨大转折点,我的创作一直受到想象力与手段相悖的限制,”“能够这样直观地构建电影视觉效果,为我开辟了全新的艺术途径……我真的迫不及待地想看到将来这些工具会带来什么形式的故事。”第五个视频:约瑟芬·米勒,创意总约瑟芬·米勒是位于伦敦的Oraar工作室的联合创始人和创意总监,专门设计3D视觉、增强现实和数字时尚。“Sora实现了我多年来拥有的想法,发掘了我的创作潜力,这些想法以前在技术上是不可能实现的,它帮助我提升了讲故事的能力。”第六个视频:唐·艾伦·斯蒂文森三世,数字AR/XR艺术家唐·艾伦三世的职业生涯始于梦工厂动画,他是一位跨学科的创造者、演讲者和顾问,与主要的技术和娱乐公司合作,致力于混合现实、虚拟现实和AI应用。他的作品呈现了跨越数十年的情绪和视觉风格,令人回味的剪辑。“很长一段时间以来,我一直在制作我认为有趣组合的艺术作品,现在我有了一种更简单的方式展现出这些想法,构建出这些3D角色所存在场景,这真的很让人惊喜。”第七个视频:亚历克斯·瑞本,雕塑家/艺术家和OpenAI的驻地艺术家亚历山大·瑞本是一位艺术家,他始终致力于创造AI图像的艺术作品,从视频中能够看到这是他所设计的一款3D艺术作品,他表示:“我使用Sora帮助我开发3D雕塑,这昭示着Sora将AI系统推向更远的艺术边界。”...PC版:https://www.cnbeta.com.tw/articles/soft/1425072.htm手机版:https://m.cnbeta.com.tw/view/1425072.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人