Sora震撼科技影视界网红褒贬不一有的等不及想用

Sora震撼科技影视界网红褒贬不一有的等不及想用美国人工智能（AI）公司OpenAI上周宣布推出由文本转为影片的生成式AI模型Sora，可让用户透过简单的文字指令立即创造出逼真的、最长60秒的影片，随即震撼科技和影视圈，连日引发热议，内容创造者亦担忧他们将是最新一批“饭碗被砸”的专业人士。https://www.sinchew.com.my/?p=5409960

在Telegram中查看

相关推荐

下午察：Sora激起中国科技圈焦虑？

下午察：Sora激起中国科技圈焦虑？继生成式人工智能（AI）ChatGPT之后，美国AI巨头OpenAI在2月16日凌晨继续震动四方，凭借更逼真的视频生成技术再次出圈。在影视业人士担忧这项AI技术可能让自己失业的同时，中美科技博弈的紧迫感也在升级。Sora是OpenAI开发的首个AI视频生成模型，只要输入内容、提示词或图片，Sora就能在一秒内生成长达一分钟的高保真视频。没有导演、专业演员的参与，Sora的视频却能生成出高度细致的背景、复杂的多角度镜头及富有情感的角色。以往视频制作的选址、选演员、分镜构图，架设机位、后期制作等复杂流程，对Sora而言都只是一句话的功夫。2024年2月20日8:50PM

掌阅科技：以 Sora 为代表的文生视频技术的发展，对公司 IP 转化将提供助力

掌阅科技：以Sora为代表的文生视频技术的发展，对公司IP视频转化将提供助力掌阅科技在互动平台表示，公司有大量的优质网文IP储备，2023年以来公司在网文IP改编短剧方面取得了较大成效；以SORA为代表的文生视频技术的发展，将有力助推网文IP的视频化，对公司IP的视频转化也将提供助力。从ChatGPT诞生以来，公司积极拥抱AI技术，致力于利用AI技术提升用户阅读体验和阅读效率，并积极向多模态内容形态发展，但截至目前，公司尚无IP直接通过AI转化成短剧或者影视内容的案例。

掌阅科技：公司尚无 IP 直接通过 AI 转化成短剧或影视内容的案例

掌阅科技：公司尚无IP直接通过AI转化成短剧或影视内容的案例掌阅科技在互动平台表示，公司有大量的优质网文IP储备，2023年以来公司在网文IP改编短剧方面取得了较大成效；以Sora为代表的文生视频技术的发展，将有力助推网文IP的视频化，对公司IP的视频转化也将提供助力。从ChatGPT诞生以来，公司积极拥抱AI技术，致力于利用AI技术提升用户阅读体验和阅读效率，并积极向多模态内容形态发展，但截至目前，公司尚无IP直接通过AI转化成短剧或者影视内容的案例。

Sora炸裂科技圈：真神还是焦虑制造机？

Sora炸裂科技圈：真神还是焦虑制造机？▲图：主角出场镜头拉近，可以清晰看到小美修长的脖子和优美的下颌线，让整个画面充满了令人无法抗拒的神秘和美感。▲图：细节展示实际上，整个短视频中，从街景到行人，包括小美，在现实中根本不存在。这是OpenAI最新产品Sora制作的演示视频，而正是这个视频，让周鸿祎做出了AGI发展将会10倍提速的预言。传统方式制作这样一段1分钟的视频成本非常高。除了需要选址，选演员，提前进行分镜构图，架设机位外等，想要碰上如此理想的天气，还需要赌一赌运气。落日转瞬即逝，一旦失误就只能第二天重头来过。拍摄完成后，是非常耗时的后期制作。不仅要调整画面色调，还要仔细核对画面中是否有瑕疵，比如眼镜反射的画面会不会导致穿帮、路人中是否出现不协调元素等等。但Sora出马，全部流程就是（字面意义上的）一句话的事。Sora官网上公布了十几段“制作”精良的高清演示短片，从现实人物到3D动画，所有短片都是通过一句话生成的。▲图：Sora展示视频看过这些短片后，我科技圈的朋友集体表示“炸裂”；大众圈的朋友表示“AI都到了这种程度了吗”；而摄影圈的朋友表示，尽管还是能看出和人类摄影师有一点点差距，但依然被Sora的效果震撼了，进而纷纷开始和我讨论起失业以后，除了送外卖还可以从事什么工作。但如果我们抛开网上铺天盖地、对Sora近乎玄幻的赞誉，跳出官网演示视频的魅惑就会发现，Sora本质上是生成式AI在视频领域的一个应用，一个diffusiontransformer模型。而官方宣传的Sora所有功能，例如通过文字或者图片生成高清短视频，在此基础上进行扩展生成一段更长的视频等，其实很多公司都在做。比较知名的产品包括已经商用的Runway，免费的Pika，以及还在完善阶段的GoogleLumiere、MetaMake-A-Video，还有一些知名度稍低的产品如Leonardo，FinalFrame等等。这里就有一个很大的疑问：凭什么出圈的又是Sora，它真有网上说的那么神吗？凭借更逼真的效果OpenAI再次出圈1月24日，Google研究人员公布了一段Lumiere的演示视频。画质非常高清，且真实。▲图：由Lumiere生成的游泳海龟视频Lumiere除了可以生成真实图片外，还可以实现一键换装、根据图片和提示词生成动态视频等功能。▲图：一键换装▲图：通过图片生成视频2月15日，刚刚过完情人节的Google在疯狂星期四又重磅推出了下一代AI产品Gemini1.5。在此前的演示视频中，Gemini已经展现了其在图像识别和多轮对话中的逆天能力。演示视频中，演示人员画了一个类似鸭子的轮廓让Gemini辨认，Gemini表示它觉得像个鸟。▲图：Gemini演示但是当演示人员画上了波浪后，Gemini表示通过长脖子长嘴又会游泳这几个依据，判断这是只鸭子。▲图：Gemini演示随后演示人员拿了个玩具小鸭子问Gemini这个东西是什么材质做的，Gemini表示看起来可能是橡胶也可能是塑料。而当演示人员捏响橡胶鸭子后，Gemini立刻判断出是用柔软的橡胶做成的。▲图：Gemini演示就在圈内很多人认为Google将要凭借Lumiere和Gemini拿下今年头条的时候，OpenAI仅仅用Sora就轻松获得了更高的关注度。Sora这个词很有意思，它在韩语中表示海螺壳，在日语中表示天空，在芬兰语中表示砂砾。这就很难不让人想到《海底两万里》的鹦鹉螺号，《沙丘》，以及“我们的目标是星辰大海”的豪情壮志。而且Sora是一个比较常见的名字，比Lumiere（法语，光）更短、更好读。和GPT当年的故事如出一辙，Sora也是踩着竞争对手以碾压式的优势胜出。相比同类产品，Sora能抓住提示词的精髓，巧妙地生成具有多个角色和特定动作的场景。有人做过对比，使用同样的提示词，让AI生成一个在花园里、似乎正在追逐什么东西、快乐奔跑的黄白相间的猫，最终结果的差距十分明显。▲图：不同AI产品的效果对比上面由Sora生成的视频看起来非常真实，甚至在奔跑时候，猫腮帮子上的毛都会随着脑袋起伏。而下面通过Pika,Runway,Leonardo,FinalFrame生成的视频，猫不仅看起来不像真的，连动作都很诡异。在生成的视频时长上，Sora也碾压友商。Sora可以生成1分钟的视频，相对的，Pika是3秒，Runway是4秒，Lumiere是5秒。最重要的是，Sora有望解决一个生成式AI的痛点，那就是同样的提示词通常不会生成同样的结果，例如“黄白相间的猫”这个提示词，不同的视频里会出现不同模样的黄白相间的猫。导致的结果，就是无法通过拼接来创作更长的视频。尽管Sora一出道就秀出了远超同行的肌肉，但Sora并没有选择像Pika、Runway一样，开放给大众使用，而是采取了Google、Meta类似的保守策略，先官宣来吊足大家胃口，然后慢慢内测，等待一个合适的时机，再向大众开放。因为，有很多关键问题，大家都没有找到好的解决方案。AI一调皮人类就头疼生成式AI天生就有一个“不按物理定律出牌”的老毛病，即便是看起来已经非常接近真实世界的Sora也不例外。这个问题过于明显，以至于OpenAI都懒得去遮掩，干脆自己先大方的说了出来。从内测用户流出的视频可以发现，Sora无视物理法则随意发挥的意愿十分高涨，而这种意愿在“必须还原物理世界”的规则约束下，很容易生成像人类做梦一样的场景。有过做梦经历的朋友应该会这样的体会：明明梦是虚幻的，但在梦里你的感受又很“真实”。下面就是个很典型的例子。▲图：Sora的梦境物理注意看，视频中的这个杯子莫名其妙的跳了起来并侧翻在桌面上，杯中的液体在杯子跳起来的一瞬间穿透了杯底铺满桌面，而最终杯子连同里面剩余的液体一起，融进了桌面。▲图：融进桌面的杯子这样的视频显然无法应用在正式的场合，大概率只能出现在B站的鬼畜区，告诉你一个学了3年动画的人，是如何因为一个毕业作品被老师轰出门外的故事。此外，Sora对算力有很高的要求。下面这个视频演示了低算力和高算力之间的差距能有多可怕。▲图：算力差距而想要高算力，就得花更多的钱。以Runway为例，个人版收费模式分3档，标准版为每月15美元，可以制作一个125秒的Gen-1视频，或者44秒的Gen-2视频，相当于每秒1-2.4元人民币，超出部分需要额外付费。Pro版每月35美元，至尊版每月95美元。而用户如果希望加快视频的产出效率，也需要额外购买“时间”。能力越大危险越大生成式AI在社会层面有几个老生常谈的问题。首先就是造假问题。AI生成的视频越真实，造假就越容易。最直接的解决办法是将AI生成的内容打上一个特殊的标签，以便于平台将其和人工拍摄的视频进行区分，OpenAI和Google的确也在做这件事。但水印的问题在于，它可以在分享的过程中会被人恶意抹除。例如通过截图、录屏的方式获得视频副本，不会带有任何水印。其次是版权问题。版权问题比造假更加复杂，它既是一个形而上的宏大概念，又和每一个创作者的个人利益息息相关。目前对版权的争论主要集中在AI和人类对齐的过程中，比如，AI通过学习别的艺术家的风格在此基础上进行的创作，和人类以同样方式进行的创作，本质上有没有区别？而更直白的问题则是，AI到底是来帮我赚钱的，还是来跟我抢钱呢？这些问题一个比一个难解决，也就意味着Sora们至少在短时间内不会向公众开放。从某种角度来看，这或许对于视频制作者是一个好消息，至少有了更多的缓冲时间，来思考如何应对接下来Sora们带来的冲击。无论如何，Sora们向公众开放，只是时间问题，至于会不会像周鸿祎预言的那么快，可能还存在疑问。但有一点毫无疑问：那时候的Sora们，...PC版：https://www.cnbeta.com.tw/articles/soft/1419351.htm手机版：https://m.cnbeta.com.tw/view/1419351.htm

爆火Sora震惊威尔·史密斯 OpenAI技术路线或早在1月被成功预言

爆火Sora震惊威尔·史密斯OpenAI技术路线或早在1月被成功预言你以为，上面是一年前的AI视频，下面是如今的AI视频？错！这个所谓AI生成的视频，其实正是威尔史密斯本人！威尔·史密斯吃意面这个“图灵测试”，曾让Runway、Pika等屡屡翻车。Runway生成的，是这样的——但如今，Sora已经做到了逼真似真人、毫无破绽，所以才让威尔史密斯成功骗过了大众，这太可怕了！Sora的出现，其实在今年1月就已被人预言1月5日，一位前阿里的AI专家表示——我认为，Transformer框架和LLM路线，将是AI视频的一个突破口和新范式，它将使AI视频更加连贯、一致，并且时长更长。目前的Diffusion+Unet路线（如Runway、Pika等），只是暂时的解决方案。无独有偶，斯坦福学者李飞飞在去年年底，就用Transformer就做出了逼真的视频。而马毅教授也表示，自己团队去年在NeurIPS一篇论文中也已经证实，用Transformer可以实现diffusion和denosing。马毅团队提出：假设数据分布是mixedGaussians，那Transformerblocks就是在实现diffusion/扩散和denoising/压缩能想到Sora技术路线的，肯定不止一个人。可是全世界第一个把Sora做出来的，就是OpenAI。OpenAI为何总能成功？无他，唯手快尔。Runway和Pika“点歪”的科技树，被OpenAI掰正了在此之前，Runway、Pika等AI视频工具吸引了不少聚光灯。而OpenAI的Sora，不仅效果更加真实，就是把Transformer对前后文的理解和强大的一致性，发挥得淋漓尽致。这个全新的科技树，可真是够震撼的。不过我们在开头也可以看到，OpenAI并不是第一个想到这个的人。Transformer框架+LLM路线这种新范式，其实早已有人想到了。就如同AI大V“阑夕”所言，OpenAI用最简单的话，把最复杂的技术讲清楚了——“图片只是单帧的视频。”科技行业这种从容的公共表达，真是前所未见，令人醍醐灌顶。“阑夕”指出，“图片只是单帧的视频”的妙处就在于，图片的创建不会脱离时间轴而存在，Sora实际上是提前给视频写了脚本的。甚至无论用户怎样Prompt，SoraAI都有自己的构图思维。而这，就是困住Runway、Pika等公司最大的问题。它们的思路，基本都是基于一张图片来让AI去想象，完成延伸和填补，从而叠加成视频。比拼的是谁家的AI更能理解用户想要的内容。因此，这些AI视频极易发生变形，如何保持一致性成了登天般的难题。DiffusionModel这一局，是彻底输给Transformer了。ChatGPT故事再次重演，Sora其实站在Google的肩膀上让我们深入扒一扒，Sora是站在哪些前人的肩膀上。简而言之，最大创新Patch的论文，是Google发表的。DiffusionTransformer的论文，来自WilliamPeebles和谢赛宁。此外，Meta等机构、UC伯克利等名校皆有贡献。WilliamPeebles和谢赛宁提出的框架纽约大学计算机系助理教授谢赛宁在分析了Sora的技术报告后表示，Sora应该是基于自己和WilliamPeebles提出的框架设计而成。这篇提出了Sora基础架构的论文，去年被ICCV收录。论文地址：https://arxiv.org/abs/2212.09748随后，WilliamPeebles加入了OpenAI，领导了开发Sora的技术团队。图灵三巨头之一、MetaAI主管LeCun，也转发了谢赛宁的帖子表示认可。巧合的是，谢赛宁是LeCun的前FAIR同事、现纽约大学同事，WilliamPeebles是LeCun的前伯克利学生、现任OpenAI工程师。AI果然是个圈。最近，谢赛宁对说自己是Sora作者的说法进行了辟谣CVPR“有眼不识泰山”，拒掉Sora基础论文有趣的是，DiffusionTransformer这篇论文曾因“缺乏创新性”被CVPR2023拒收，后来才被ICCV2003接收。谢赛宁表示，他们在DIT项目没有创造太多的新东西，但是两个方面的问题：简单性和可扩展性。这可能就是Sora为什么要基于DIT构建的主要原因。此前，生成模型的方法包括GAN、自回归、扩散模型。它们都有各自的优势和局限性。而Sora引入的，是一种全新的范式转变——新的建模技术和灵活性，可以处理各种时间、纵横比和分辨率。Sora所做的，是把Diffusion和Transformer架构结合在一起，创建了diffusiontransformer模型。这也即是OpenAI的创新之处。时空Patch是Google的创新时空Patch，是Sora创新的核心。它建立在GoogleDeepMind早期对NaViT和ViT（视觉Transformer）的研究之上。论文地址：https://arxiv.org/abs/2307.06304而这项研究，又是基于一篇2021年的论文“AnImageisWorth16x16Words”。论文地址：https://arxiv.org/abs/2010.11929传统上，对于视觉Transformer，研究者都是使用一系列图像Patch来训练用于图像识别的Transformer模型，而不是用于语言Transformer的单词。这些Patch，能使我们能够摆脱卷积神经网络进行图像处理。然而，视觉Transforemr对图像训练数据的限制是固定的，这些数据的大小和纵横比是固定的，这就限制了质量，并且需要大量的图像预处理。而通过将视频视为Patch序列，Sora保持了原始的纵横比和分辨率，类似于NaViT对图像的处理。这种保存，对于捕捉视觉数据的真正本质至关重要！通过这种方法，模型能够从更准确的世界表示中学习，从而赋予Sora近乎神奇的准确性。时空Patch的可视化GooglePatch的论文，发表于2021年。3年后，OpenAI基于这项技术，做出了Sora。这段历史看起来是不是有点眼熟？简直就像“AttentionIsAllYouNeed”的历史重演。2017年6月12日，8位Google研究人员发表了AttentionisAllYouNeed，大名鼎鼎的Transformer横空出世。它的出现，让NLP变了天，成为自然语言领域的主流模型。论文地址：https://arxiv.org/pdf/1706.03762.pdf它完全摒弃了递归结构，依赖注意力机制，挖掘输入和输出之间的关系，进而实现了并行计算。在Google看来，Transformer是一种语言理解的新型神经网络架构。不过它当初被设计出来，是为了解决翻译问题。而后来，Transformer架构被OpenAI拿来发扬光大，成为ChatGPT这类LLM的核心。2022年，OpenAI用Google17年发表的Transformer做出ChatGPT。2024年，OpenAI用Google21年发表的Patch做出Sora。这也让人不由感慨：诚如《为什么伟大不能被计划》一书中所言，伟大的成就与发明，往往是偏离最初计划的结果。前人的无心插柳，给后人的成功做好了奠基石，而一条成功的道路是如何踏出的，完全是出于偶然。Meta微软UC伯克利斯坦福MIT亦有贡献此外，从Sora参考文献中可以看出，多个机构和名校都对Sora做出了贡献。比如，用Transformer做扩散模型的去噪骨干这个方法，早已被斯坦福学者李飞飞证明。在去年12月，李飞飞携斯坦福联袂Google，用Transformer生成了逼真视频。生成的效果可谓媲美Gen-2比肩Pika，当时许多人激动地感慨——2023年已成AI视频元年，谁成想2024一开年，OpenAI新的震撼就来了！李飞飞团队做的，是一个在共享潜空间中训练图像和视频生成的，基于Transformer的扩散模型。史上首次，AI学者证明了：Transformer架构可以将图像和视频编码到一个共享的潜空间中！论文：https://walt-video-diffusion.github.io/assets/W.A.L.T.pdfMSRA和北大联合团队提出的统一多模态预训练模型——NÜWA（女娲），也为Sora做出了贡献。此前的多模态模型要么只能处理图像，要么只能处理视频，而NÜWA则可以为各种视觉合成任务，生成新的图像和视频数据。项目地址：https://github.com/microsoft/NUWA为了在不同场景下同时覆盖语言、图像和视频，团队设计了一个三维变换器编码器-解码器框架。它不仅可以处理作为三维数据的视频，还可以适应分别作为一维和二维数据的文本和图像。在8个下游任务中，NÜWA都取得了新的SOTA，在文本到图像生成中的表现，更是直接超越了DALL-E。NÜWA模型支持的8种典型视觉生成任务草蛇灰线，伏脉千里。踩在前人的肩膀上，通过敏锐的直觉和不眠不休的高强度工作，OpenAI的研究者...PC版：https://www.cnbeta.com.tw/articles/soft/1419363.htm手机版：https://m.cnbeta.com.tw/view/1419363.htm

OpenAI发布7部超现实Sora作品：气球人、3D影像和带翅膀的长颈鹿

OpenAI发布7部超现实Sora作品：气球人、3D影像和带翅膀的长颈鹿第一个视频：shykids-《气球人》沃尔特导演了《气球人》并评论说：“Sora生成现实事物视频所展现出的场景是非常棒的，而更激动人心的是它还可以制作完全超现实的东西。”比如，影片中的气球人在刮风的日子会让他的头从肩膀上吹下来，当他走过植物商店的仙人掌旁边时，他也必须要小心翼翼的。第二个视频：保罗·特里洛，导保罗·特里洛是一位多学科艺术家、作家和导演，其作品获得了《滚石》和《纽约客》等媒体的赞誉。保罗获得了19个Vimeo员工精选奖，这是授予在Vimeo上托管的最佳短片的荣誉。该导演表示：“与Sora合作使我作为电影制作人而感到自由，不受时间、金钱、他人许可的限制，我可以以大胆和令人兴奋的方式构思和创作。”第三个视频：尼克·克莱沃洛夫，创意总监/NativeforeigNativeforeign是一家来自加利福尼亚州洛杉矶的艾美提名创意机构，专注于品牌叙事、动态标题设计以及生成式AI工作流程。联合创始人尼克·克莱沃洛夫正在使用Sora进行可视化并丰富个人的创意，他认为“当我在使用Sora时，真的感觉我可以将任何想法变为现实。”第四个视频：奥古斯特·坎普，艺术家/音乐家奥古斯特·坎普是一位音乐家、研究员、创意活动家和多学科艺术家。他分享到自己的使用体验：“对我来说，Sora是艺术家生涯的巨大转折点，我的创作一直受到想象力与手段相悖的限制，”“能够这样直观地构建电影视觉效果，为我开辟了全新的艺术途径……我真的迫不及待地想看到将来这些工具会带来什么形式的故事。”第五个视频：约瑟芬·米勒，创意总约瑟芬·米勒是位于伦敦的Oraar工作室的联合创始人和创意总监，专门设计3D视觉、增强现实和数字时尚。“Sora实现了我多年来拥有的想法，发掘了我的创作潜力，这些想法以前在技术上是不可能实现的，它帮助我提升了讲故事的能力。”第六个视频：唐·艾伦·斯蒂文森三世，数字AR/XR艺术家唐·艾伦三世的职业生涯始于梦工厂动画，他是一位跨学科的创造者、演讲者和顾问，与主要的技术和娱乐公司合作，致力于混合现实、虚拟现实和AI应用。他的作品呈现了跨越数十年的情绪和视觉风格，令人回味的剪辑。“很长一段时间以来，我一直在制作我认为有趣组合的艺术作品，现在我有了一种更简单的方式展现出这些想法，构建出这些3D角色所存在场景，这真的很让人惊喜。”第七个视频：亚历克斯·瑞本，雕塑家/艺术家和OpenAI的驻地艺术家亚历山大·瑞本是一位艺术家，他始终致力于创造AI图像的艺术作品，从视频中能够看到这是他所设计的一款3D艺术作品，他表示：“我使用Sora帮助我开发3D雕塑，这昭示着Sora将AI系统推向更远的艺术边界。”...PC版：https://www.cnbeta.com.tw/articles/soft/1425072.htm手机版：https://m.cnbeta.com.tw/view/1425072.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人