Epic 现场发布虚幻引擎5炸裂新应用“MetaHuman Animator”极速模拟真人面部动作

现场演示：Epic发布的虚幻引擎5炸裂新应用

现场演示：Epic发布的虚幻引擎5炸裂新应用昨晚Epic发布的虚幻引擎5炸裂新应用“MetaHuman Animator”极速模拟真人面部动作。 Demo现场，女演员对着iPhone前置摄像头讲一段10秒钟的话，配合对应的面部动作。仅仅2分钟之后，虚幻引擎5就在建模人脸上精准复现了这一段讲话视频，所有面部细节都被高度还原，包括嘴唇，眼神，面部肌肉，光影等。语言发音与动作细节配合完美。采集面部数据的过程，并没有借助除了iPhone之外的任何设备。所有渲染建模过程，都在直播中呈现，全程仅仅2分钟。#视频 (，，) 来自：雷锋频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

Jim Fan 详细介绍了一下 Sora 的实现原理，这不仅仅是一个视频生成模型这么简单，还是一个基于数据驱动的虚幻 5 引擎。

Jim Fan 详细介绍了一下 Sora 的实现原理，这不仅仅是一个视频生成模型这么简单，还是一个基于数据驱动的虚幻 5 引擎。如果你以为OpenAI Sora只是一个像DALLE这样的创意小玩具，那你可要重新认识一下了。Sora实际上是一个基于数据驱动的物理引擎，能够模拟各种真实或奇幻的世界。这款模拟器能学会复杂的渲染技术、直观的物理规律、长期的逻辑推理以及语义理解，而这一切都是通过先进的去噪技术和梯度计算实现的。我甚至猜测，Sora可能是通过使用Unreal Engine 5生成的大量合成数据来进行训练的。这听起来非常有可能！下面我们来详细分析一段视频。这段视频的提示是：“一杯咖啡里，两艘海盗船相互战斗的逼真特写视频。” •视频中，模拟器创建了两艘装饰各异的精美海盗船的3D模型。Sora需要在其庞大的数据空间中隐式地完成从文本到3D模型的转换。 •这些3D模型的海盗船在航行中能够自然地动起来，它们在避开对方的同时，动作流畅协调。 •还有咖啡的流体动力学表现，包括船只周围形成的泡沫。流体模拟本身就是计算机图形学中一个复杂的分支，通常需要复杂的算法和方程式来实现。 •视频的光影效果逼真，几乎可以媲美光线追踪技术的渲染效果。 •模拟器还考虑到了杯子与海洋相比较小的尺寸，并运用了移轴摄影技术（Tilt-shift photography），为整个场景增添了一种微观世界的感觉。 •虽然视频中的场景在现实世界里找不到对应，但模拟器还是根据我们的期望，准确实现了物理规则。接下来的步骤是：引入更多的模态和条件变量，我们就可以得到一个全面的、基于数据驱动的Unreal Engine。它将有望替代所有现有的手工设计图形处理流程。 Invalid media:

Jim Fan 详细介绍了一下 Sora 的实现原理，这不仅仅是一个视频生成模型这么简单，还是一个基于数据驱动的虚幻 5 引擎。

Jim Fan 详细介绍了一下 Sora 的实现原理，这不仅仅是一个视频生成模型这么简单，还是一个基于数据驱动的虚幻 5 引擎。如果你以为OpenAI Sora只是一个像DALLE这样的创意小玩具，那你可要重新认识一下了。Sora实际上是一个基于数据驱动的物理引擎，能够模拟各种真实或奇幻的世界。这款模拟器能学会复杂的渲染技术、直观的物理规律、长期的逻辑推理以及语义理解，而这一切都是通过先进的去噪技术和梯度计算实现的。我甚至猜测，Sora可能是通过使用Unreal Engine 5生成的大量合成数据来进行训练的。这听起来非常有可能！下面我们来详细分析一段视频。这段视频的提示是：“一杯咖啡里，两艘海盗船相互战斗的逼真特写视频。” •视频中，模拟器创建了两艘装饰各异的精美海盗船的3D模型。Sora需要在其庞大的数据空间中隐式地完成从文本到3D模型的转换。 •这些3D模型的海盗船在航行中能够自然地动起来，它们在避开对方的同时，动作流畅协调。 •还有咖啡的流体动力学表现，包括船只周围形成的泡沫。流体模拟本身就是计算机图形学中一个复杂的分支，通常需要复杂的算法和方程式来实现。 •视频的光影效果逼真，几乎可以媲美光线追踪技术的渲染效果。 •模拟器还考虑到了杯子与海洋相比较小的尺寸，并运用了移轴摄影技术（Tilt-shift photography），为整个场景增添了一种微观世界的感觉。 •虽然视频中的场景在现实世界里找不到对应，但模拟器还是根据我们的期望，准确实现了物理规则。接下来的步骤是：引入更多的模态和条件变量，我们就可以得到一个全面的、基于数据驱动的Unreal Engine。它将有望替代所有现有的手工设计图形处理流程。

Sora炸裂科技圈：真神还是焦虑制造机？

Sora炸裂科技圈：真神还是焦虑制造机？ ▲图：主角出场镜头拉近，可以清晰看到小美修长的脖子和优美的下颌线，让整个画面充满了令人无法抗拒的神秘和美感。▲图：细节展示实际上，整个短视频中，从街景到行人，包括小美，在现实中根本不存在。这是OpenAI最新产品Sora制作的演示视频，而正是这个视频，让周鸿祎做出了AGI发展将会10倍提速的预言。传统方式制作这样一段1分钟的视频成本非常高。除了需要选址，选演员，提前进行分镜构图，架设机位外等，想要碰上如此理想的天气，还需要赌一赌运气。落日转瞬即逝，一旦失误就只能第二天重头来过。拍摄完成后，是非常耗时的后期制作。不仅要调整画面色调，还要仔细核对画面中是否有瑕疵，比如眼镜反射的画面会不会导致穿帮、路人中是否出现不协调元素等等。但Sora出马，全部流程就是（字面意义上的）一句话的事。Sora官网上公布了十几段“制作”精良的高清演示短片，从现实人物到3D动画，所有短片都是通过一句话生成的。▲图：Sora展示视频看过这些短片后，我科技圈的朋友集体表示“炸裂”；大众圈的朋友表示“AI都到了这种程度了吗”；而摄影圈的朋友表示，尽管还是能看出和人类摄影师有一点点差距，但依然被Sora的效果震撼了，进而纷纷开始和我讨论起失业以后，除了送外卖还可以从事什么工作。但如果我们抛开网上铺天盖地、对Sora近乎玄幻的赞誉，跳出官网演示视频的魅惑就会发现，Sora本质上是生成式AI在视频领域的一个应用，一个diffusion transformer模型。而官方宣传的Sora所有功能，例如通过文字或者图片生成高清短视频，在此基础上进行扩展生成一段更长的视频等，其实很多公司都在做。比较知名的产品包括已经商用的Runway，免费的Pika，以及还在完善阶段的Google Lumiere、Meta Make-A-Video，还有一些知名度稍低的产品如Leonardo，FinalFrame等等。这里就有一个很大的疑问：凭什么出圈的又是Sora，它真有网上说的那么神吗？凭借更逼真的效果OpenAI再次出圈1月24日，Google研究人员公布了一段Lumiere的演示视频。画质非常高清，且真实。▲图：由Lumiere生成的游泳海龟视频Lumiere除了可以生成真实图片外，还可以实现一键换装、根据图片和提示词生成动态视频等功能。▲图：一键换装▲图：通过图片生成视频2月15日，刚刚过完情人节的Google在疯狂星期四又重磅推出了下一代AI产品Gemini 1.5。在此前的演示视频中，Gemini已经展现了其在图像识别和多轮对话中的逆天能力。演示视频中，演示人员画了一个类似鸭子的轮廓让Gemini辨认，Gemini表示它觉得像个鸟。▲图：Gemini演示但是当演示人员画上了波浪后，Gemini表示通过长脖子长嘴又会游泳这几个依据，判断这是只鸭子。▲图：Gemini演示随后演示人员拿了个玩具小鸭子问Gemini这个东西是什么材质做的，Gemini表示看起来可能是橡胶也可能是塑料。而当演示人员捏响橡胶鸭子后，Gemini立刻判断出是用柔软的橡胶做成的。▲图：Gemini演示就在圈内很多人认为Google将要凭借Lumiere和Gemini拿下今年头条的时候，OpenAI仅仅用Sora就轻松获得了更高的关注度。Sora这个词很有意思，它在韩语中表示海螺壳，在日语中表示天空，在芬兰语中表示砂砾。这就很难不让人想到《海底两万里》的鹦鹉螺号，《沙丘》，以及“我们的目标是星辰大海”的豪情壮志。而且Sora是一个比较常见的名字，比Lumiere（法语，光）更短、更好读。和GPT当年的故事如出一辙，Sora也是踩着竞争对手以碾压式的优势胜出。相比同类产品，Sora能抓住提示词的精髓，巧妙地生成具有多个角色和特定动作的场景。有人做过对比，使用同样的提示词，让AI生成一个在花园里、似乎正在追逐什么东西、快乐奔跑的黄白相间的猫，最终结果的差距十分明显。▲图：不同AI产品的效果对比上面由Sora生成的视频看起来非常真实，甚至在奔跑时候，猫腮帮子上的毛都会随着脑袋起伏。而下面通过Pika, Runway, Leonardo, FinalFrame生成的视频，猫不仅看起来不像真的，连动作都很诡异。在生成的视频时长上，Sora也碾压友商。Sora可以生成1分钟的视频，相对的，Pika是3秒，Runway是4秒，Lumiere是5秒。最重要的是，Sora有望解决一个生成式AI的痛点，那就是同样的提示词通常不会生成同样的结果，例如“黄白相间的猫”这个提示词，不同的视频里会出现不同模样的黄白相间的猫。导致的结果，就是无法通过拼接来创作更长的视频。尽管Sora一出道就秀出了远超同行的肌肉，但Sora并没有选择像Pika、Runway一样，开放给大众使用，而是采取了Google、Meta类似的保守策略，先官宣来吊足大家胃口，然后慢慢内测，等待一个合适的时机，再向大众开放。因为，有很多关键问题，大家都没有找到好的解决方案。AI一调皮人类就头疼生成式AI天生就有一个“不按物理定律出牌”的老毛病，即便是看起来已经非常接近真实世界的Sora也不例外。这个问题过于明显，以至于OpenAI都懒得去遮掩，干脆自己先大方的说了出来。从内测用户流出的视频可以发现，Sora无视物理法则随意发挥的意愿十分高涨，而这种意愿在“必须还原物理世界”的规则约束下，很容易生成像人类做梦一样的场景。有过做梦经历的朋友应该会这样的体会：明明梦是虚幻的，但在梦里你的感受又很“真实”。下面就是个很典型的例子。▲图：Sora的梦境物理注意看，视频中的这个杯子莫名其妙的跳了起来并侧翻在桌面上，杯中的液体在杯子跳起来的一瞬间穿透了杯底铺满桌面，而最终杯子连同里面剩余的液体一起，融进了桌面。▲图：融进桌面的杯子这样的视频显然无法应用在正式的场合，大概率只能出现在B站的鬼畜区，告诉你一个学了3年动画的人，是如何因为一个毕业作品被老师轰出门外的故事。此外，Sora对算力有很高的要求。下面这个视频演示了低算力和高算力之间的差距能有多可怕。▲图：算力差距而想要高算力，就得花更多的钱。以Runway为例，个人版收费模式分3档，标准版为每月15美元，可以制作一个125秒的Gen-1视频，或者44秒的Gen-2视频，相当于每秒1-2.4元人民币，超出部分需要额外付费。Pro版每月35美元，至尊版每月95美元。而用户如果希望加快视频的产出效率，也需要额外购买“时间”。能力越大危险越大生成式AI在社会层面有几个老生常谈的问题。首先就是造假问题。AI生成的视频越真实，造假就越容易。最直接的解决办法是将AI生成的内容打上一个特殊的标签，以便于平台将其和人工拍摄的视频进行区分，OpenAI和Google的确也在做这件事。但水印的问题在于，它可以在分享的过程中会被人恶意抹除。例如通过截图、录屏的方式获得视频副本，不会带有任何水印。其次是版权问题。版权问题比造假更加复杂，它既是一个形而上的宏大概念，又和每一个创作者的个人利益息息相关。目前对版权的争论主要集中在AI和人类对齐的过程中，比如，AI通过学习别的艺术家的风格在此基础上进行的创作，和人类以同样方式进行的创作，本质上有没有区别？而更直白的问题则是，AI到底是来帮我赚钱的，还是来跟我抢钱呢？这些问题一个比一个难解决，也就意味着Sora们至少在短时间内不会向公众开放。从某种角度来看，这或许对于视频制作者是一个好消息，至少有了更多的缓冲时间，来思考如何应对接下来Sora们带来的冲击。无论如何，Sora们向公众开放，只是时间问题，至于会不会像周鸿祎预言的那么快，可能还存在疑问。但有一点毫无疑问：那时候的Sora们，... PC版：手机版：

Sora对新闻业只有坏处？

Sora对新闻业只有坏处？ Sora生成视频：穿过东京郊区的火车窗外对此，复旦大学新闻学院教授、博士生导师邓建国在接受中新社“庖丁解news”专访时表示，“视频记者”这四个字中重要的不是“视频”而是“记者”。新闻报道追求真实（facts），而Sora全是虚拟（fictional），因此它从本质上对新闻业只有坏处没有好处。它唯一可以被新闻业利用的也许是建构在新闻事实基础上的情景再现。01突破性：Sora是向着元宇宙方向的迈进相较于Runway Gen 2、Pika等还在突破几秒内连贯性、单镜头生成的AI视频工具，Sora已经可以生成60秒一镜到底的视频。在OpenAI发布的示例中，视频中的女主角、背景人物栩栩如生、细节丰富，各种镜头随意切换，人物都是保持了稳定性，Sora的AI视频效果，几乎和人工拍摄不相上下。“Sora可以基于一段文字、图片和视频提示（prompt），理解它并根据相应的物理原理在时空上向过去或未来推演，因此而形成60秒钟的视频。”邓建国表示，Sora不是一些人所说的“导致了物理原理的消失”，而是证明了物理原理的强大，也正是因为这一能力，Sora被称为“世界模型”（world model）或者“世界模拟器”（world simulator），因为它具有根据已有信息建模出一个未来可能的世界的能力。邓建国进一步指出，我们此前用文字建构世界，比如曹雪芹用美轮美奂的文字建构了“大观园”，我们通过自己的想象力对其进行可视化；今天同样用文字，我们则可以用技术对其进行可视化。Sora 所基于的技术，如芯片算力、算法以及图形渲染引擎Unreal Engine 5等，都是建设元宇宙的基础设施，因此Sora是向着元宇宙方向的迈进。02冲击性：视频记者不必瑟瑟发抖如果说ChatGPT是语言大师，那么Sora则是一个多模态数据的通才。有学者提出，Sora的出现将深刻影响10个行业，包括短视频行业、影视行业、游戏行业、广告行业、教育行业、电商行业、制造业、科学研究、建筑行业、艺术创作行业等。在人才培养方面，邓建国预测，Sora将对大学影视专业的人才培养形成较大的冲击。Sora生成视频：几只巨大的毛茸茸的猛犸象正踏着白雪皑皑的草地走来中国人民大学吴玉章讲席教授、国家发展与战略研究院研究员刘永谋在《新京报》评论撰文认为，短视频时代，Sora既然可与人工媲美，制造短视频的专门团队可能就面临下岗危险。要知道，短视频的摄影、导演、剪辑等任务，Sora“一个人”费点电就全包了。对于媒体而言，不少视频记者担心自己的工作会被Sora代替。“‘视频记者’这四个字中重要的不是‘视频’而是‘记者’。如果记者没有脚力、眼力、脑力和笔力，而仅仅满足于坐在空调房里进行网络内容搜索、编辑和发布，这样的记者在任何时候都不具备不可替代性。”与此同时，邓建国也表示，目前Sora生成的视频还不能做到完全真实，有的细节破绽用肉眼可以识别，有的通过AI能识别。所以创作者如何使用文字精确地控制视频的细节和效果，目前还有待Sora迭代发展。提示词为“考古学家在沙漠中发现了一把普通的塑料椅子，正小心翼翼地挖掘和除尘”，Sora生成的视频出现了椅子变形、自动行走等诡异的场景“我们一直在说，传播业已经发生了‘视觉转向’（a visual turn），但ChatGPT、Midjourney、 Stable Diffusion 和Sora似乎告诉我们，文字是一切媒介之母。影视业和短视频从业者仍然不能抛弃文字，而要精通文字表达。”03危险性：警惕深度造伪风险图文时代，都说“有图有真相”，结果发现图可以P；到了视频时代，又有人说“有视频有真相”，结果现在视频也可以AI生成了。最近美国巨星Taylor Swift就被深度伪造色情内容而引发舆论关注，X（原名“Twitter”）也被迫禁止用户对她名字的检索。“过于逼真的AI视频很有可能会造成假新闻泛滥，给新闻伦理和新闻治理带来巨大挑战。”邓建国表示，人工智能技术被用于多模态的内容生产（AIGC）可以降本增效，但同时也引入了深度伪造的风险。“新闻报道追求真实（facts），而Sora全是虚拟（fictional），因此它从本质上对新闻业只有坏处没有好处。我想，它唯一可以被新闻业利用的也许是建构在新闻事实基础上的情景再现。”“让事情更为棘手的是，从平台算法开始到现在的人工智能，由于涉及到海量数据、极为复杂的算法，以及众多用户与ChatGPT及Sora的个性化互动，即使是人工智能专家也无法精确预测和解释人工智能给出的每一个输出背后的原因，这给对AI的规制带来了前所未有的挑战。”邓建国表示，从文字开始，媒介技术就是生产复制品（化身、幻影、鬼魂）的工具，所以我们要从技术生产者、政策制定者、新闻媒体、教育机构和用户等多方面共同规制AIGC。 ... PC版：手机版：

相关推荐

现场演示：Epic发布的虚幻引擎5炸裂新应用

Jim Fan 详细介绍了一下 Sora 的实现原理，这不仅仅是一个视频生成模型这么简单，还是一个基于数据驱动的虚幻 5 引擎。

Jim Fan 详细介绍了一下 Sora 的实现原理，这不仅仅是一个视频生成模型这么简单，还是一个基于数据驱动的虚幻 5 引擎。

Sora炸裂科技圈：真神还是焦虑制造机？

Sora对新闻业只有坏处？