Sora炸裂科技圈:真神还是焦虑制造机?

Sora炸裂科技圈:真神还是焦虑制造机? ▲图:主角出场镜头拉近,可以清晰看到小美修长的脖子和优美的下颌线,让整个画面充满了令人无法抗拒的神秘和美感。▲图:细节展示实际上,整个短视频中,从街景到行人,包括小美,在现实中根本不存在。这是OpenAI最新产品Sora制作的演示视频,而正是这个视频,让周鸿祎做出了AGI发展将会10倍提速的预言。传统方式制作这样一段1分钟的视频成本非常高。除了需要选址,选演员,提前进行分镜构图,架设机位外等,想要碰上如此理想的天气,还需要赌一赌运气。落日转瞬即逝,一旦失误就只能第二天重头来过。拍摄完成后,是非常耗时的后期制作。不仅要调整画面色调,还要仔细核对画面中是否有瑕疵,比如眼镜反射的画面会不会导致穿帮、路人中是否出现不协调元素等等。但Sora出马,全部流程就是(字面意义上的)一句话的事。Sora官网上公布了十几段“制作”精良的高清演示短片, 从现实人物到3D动画,所有短片都是通过一句话生成的。▲图:Sora展示视频看过这些短片后,我科技圈的朋友集体表示“炸裂”;大众圈的朋友表示“AI都到了这种程度了吗”;而摄影圈的朋友表示,尽管还是能看出和人类摄影师有一点点差距,但依然被Sora的效果震撼了,进而纷纷开始和我讨论起失业以后,除了送外卖还可以从事什么工作。但如果我们抛开网上铺天盖地、对Sora近乎玄幻的赞誉,跳出官网演示视频的魅惑就会发现,Sora本质上是生成式AI在视频领域的一个应用,一个diffusion transformer模型。而官方宣传的Sora所有功能,例如通过文字或者图片生成高清短视频,在此基础上进行扩展生成一段更长的视频等,其实很多公司都在做。比较知名的产品包括已经商用的Runway,免费的Pika,以及还在完善阶段的Google Lumiere、Meta Make-A-Video,还有一些知名度稍低的产品如Leonardo,FinalFrame等等。这里就有一个很大的疑问:凭什么出圈的又是Sora,它真有网上说的那么神吗?凭借更逼真的效果OpenAI再次出圈1月24日,Google研究人员公布了一段Lumiere的演示视频。画质非常高清,且真实。▲图:由Lumiere生成的游泳海龟视频Lumiere除了可以生成真实图片外,还可以实现一键换装、根据图片和提示词生成动态视频等功能。▲图:一键换装▲图:通过图片生成视频2月15日,刚刚过完情人节的Google在疯狂星期四又重磅推出了下一代AI产品Gemini 1.5。在此前的演示视频中,Gemini已经展现了其在图像识别和多轮对话中的逆天能力。演示视频中,演示人员画了一个类似鸭子的轮廓让Gemini辨认,Gemini表示它觉得像个鸟。▲图:Gemini演示但是当演示人员画上了波浪后,Gemini表示通过长脖子长嘴又会游泳这几个依据,判断这是只鸭子。▲图:Gemini演示随后演示人员拿了个玩具小鸭子问Gemini这个东西是什么材质做的,Gemini表示看起来可能是橡胶也可能是塑料。而当演示人员捏响橡胶鸭子后,Gemini立刻判断出是用柔软的橡胶做成的。▲图:Gemini演示就在圈内很多人认为Google将要凭借Lumiere和Gemini拿下今年头条的时候,OpenAI仅仅用Sora就轻松获得了更高的关注度。Sora这个词很有意思,它在韩语中表示海螺壳,在日语中表示天空,在芬兰语中表示砂砾。这就很难不让人想到《海底两万里》的鹦鹉螺号,《沙丘》,以及“我们的目标是星辰大海”的豪情壮志。而且Sora是一个比较常见的名字,比Lumiere(法语,光)更短、更好读。和GPT当年的故事如出一辙,Sora也是踩着竞争对手以碾压式的优势胜出。相比同类产品,Sora能抓住提示词的精髓,巧妙地生成具有多个角色和特定动作的场景。有人做过对比,使用同样的提示词,让AI生成一个在花园里、似乎正在追逐什么东西、快乐奔跑的黄白相间的猫,最终结果的差距十分明显。▲图:不同AI产品的效果对比上面由Sora生成的视频看起来非常真实,甚至在奔跑时候,猫腮帮子上的毛都会随着脑袋起伏。而下面通过Pika, Runway, Leonardo, FinalFrame生成的视频,猫不仅看起来不像真的,连动作都很诡异。在生成的视频时长上,Sora也碾压友商。Sora可以生成1分钟的视频,相对的,Pika是3秒,Runway是4秒,Lumiere是5秒。最重要的是,Sora有望解决一个生成式AI的痛点,那就是同样的提示词通常不会生成同样的结果,例如“黄白相间的猫”这个提示词,不同的视频里会出现不同模样的黄白相间的猫。导致的结果,就是无法通过拼接来创作更长的视频。尽管Sora一出道就秀出了远超同行的肌肉,但Sora并没有选择像Pika、Runway一样,开放给大众使用,而是采取了Google、Meta类似的保守策略,先官宣来吊足大家胃口,然后慢慢内测,等待一个合适的时机,再向大众开放。因为,有很多关键问题,大家都没有找到好的解决方案。AI一调皮人类就头疼生成式AI天生就有一个“不按物理定律出牌”的老毛病,即便是看起来已经非常接近真实世界的Sora也不例外。这个问题过于明显,以至于OpenAI都懒得去遮掩,干脆自己先大方的说了出来。从内测用户流出的视频可以发现,Sora无视物理法则随意发挥的意愿十分高涨,而这种意愿在“必须还原物理世界”的规则约束下,很容易生成像人类做梦一样的场景。有过做梦经历的朋友应该会这样的体会:明明梦是虚幻的,但在梦里你的感受又很“真实”。下面就是个很典型的例子。▲图:Sora的梦境物理注意看,视频中的这个杯子莫名其妙的跳了起来并侧翻在桌面上,杯中的液体在杯子跳起来的一瞬间穿透了杯底铺满桌面,而最终杯子连同里面剩余的液体一起,融进了桌面。▲图:融进桌面的杯子这样的视频显然无法应用在正式的场合,大概率只能出现在B站的鬼畜区,告诉你一个学了3年动画的人,是如何因为一个毕业作品被老师轰出门外的故事。此外,Sora对算力有很高的要求。下面这个视频演示了低算力和高算力之间的差距能有多可怕。▲图:算力差距而想要高算力,就得花更多的钱。以Runway为例,个人版收费模式分3档,标准版为每月15美元,可以制作一个125秒的Gen-1视频,或者44秒的Gen-2视频,相当于每秒1-2.4元人民币,超出部分需要额外付费。Pro版每月35美元,至尊版每月95美元。而用户如果希望加快视频的产出效率,也需要额外购买“时间”。能力越大危险越大生成式AI在社会层面有几个老生常谈的问题。首先就是造假问题。AI生成的视频越真实,造假就越容易。最直接的解决办法是将AI生成的内容打上一个特殊的标签,以便于平台将其和人工拍摄的视频进行区分,OpenAI和Google的确也在做这件事。但水印的问题在于,它可以在分享的过程中会被人恶意抹除。例如通过截图、录屏的方式获得视频副本,不会带有任何水印。其次是版权问题。版权问题比造假更加复杂,它既是一个形而上的宏大概念,又和每一个创作者的个人利益息息相关。目前对版权的争论主要集中在AI和人类对齐的过程中,比如,AI通过学习别的艺术家的风格在此基础上进行的创作,和人类以同样方式进行的创作,本质上有没有区别?而更直白的问题则是,AI到底是来帮我赚钱的,还是来跟我抢钱呢?这些问题一个比一个难解决,也就意味着Sora们至少在短时间内不会向公众开放。从某种角度来看,这或许对于视频制作者是一个好消息,至少有了更多的缓冲时间,来思考如何应对接下来Sora们带来的冲击。无论如何,Sora们向公众开放,只是时间问题,至于会不会像周鸿祎预言的那么快,可能还存在疑问。但有一点毫无疑问:那时候的Sora们,... PC版: 手机版:

相关推荐

封面图片

下午察:Sora激起中国科技圈焦虑?

下午察:Sora激起中国科技圈焦虑? 继生成式人工智能(AI)ChatGPT之后,美国AI巨头OpenAI在2月16日凌晨继续震动四方,凭借更逼真的视频生成技术再次出圈。在影视业人士担忧这项AI技术可能让自己失业的同时,中美科技博弈的紧迫感也在升级。 Sora是OpenAI开发的首个AI视频生成模型,只要输入内容、提示词或图片,Sora就能在一秒内生成长达一分钟的高保真视频。 没有导演、专业演员的参与,Sora的视频却能生成出高度细致的背景、复杂的多角度镜头及富有情感的角色。以往视频制作的选址、选演员、分镜构图,架设机位、后期制作等复杂流程,对Sora而言都只是一句话的功夫。 2024年2月20日 8:50 PM

封面图片

Google Gemini 1.5 Pro 评价 OpenAI 最新 Sora 视频

Google Gemini 1.5 Pro 评价 OpenAI 最新 Sora 视频 让 Google Gemini 1.5 Pro 判断 OpenAI 在 TikTok 发布的最新 Sora 视频是否是 AI 生成的,有什么不合理的地方,它表示,这段视频是由人工智能生成的。视频中的蜜蜂飞得太快,而且不稳定,似乎能够瞬间改变方向。此外,蜜蜂的翅膀拍打方式也不真实。 TikTok 视频链接: via 匿名 标签: #Google #Gemini 频道: @GodlyNews1 投稿: @GodlyNewsBot

封面图片

#AI #Sora #web

#AI #Sora #web Sora Videos 又一个收集 Sora 生成视频的网站,比上次推荐的 SoraPrompts 的视频更多,也包含了官方 TikTok 发布的视频,并附有对应 prompt ,喜欢的可以看看。 频道 @WidgetChannel

封面图片

终于有普通人可以立刻使用的类 Sora 视频生成工具了!#ai# #sora#

终于有普通人可以立刻使用的类 Sora 视频生成工具了!#ai视频# #sora# 海外产品 viva 发布了首个开放给全部用户使用的 Sora 同架构视频生成模型,而且现阶段免费。 支持文本生成视频、图片生成视频以及 4K 分辨率放大功能,另外也支持提示词的自动优化。 文生视频单次可以生成一条 5 秒的视频,图生视频是 4 秒视频 我测试了一下应该是目前运动幅度最大的视频生成模型,同时图像分辨率也是现在可以用的视频生成产品中最大的。文生视频的效果比图生视频要更好,同时如果要是用的话建议把运动幅度调到 20 左右比较合适。 viva 优势领域就是可以生成比较好的竖屏视频,目前很多视频模型的演示都是横屏视频,竖屏的表现并不好,但是短视频又是视频内容的大头,所以竖屏视频的生成质量是个很重要的指标。 但是一致性有一部分测试中保持的不是很好,同时没有表现出 Sora 那样强大的物理特性模拟以及 3D 一致性。跟谷歌 刚发布的 Veo 模型对比来看在写实内容上其实以及差不多了。 下面是 viva 的视频演示,15 秒开始有相同的提示词跟谷歌刚发布的 Veo 模型的对比。 这里体验 viva:

封面图片

#AI #Sora #prompt

#AI #Sora #prompt SoraPrompts 一个收集 OpenAI Sora 提示词和视频的网站,每日更新,可预览播放生成的视频,由于 Sora 尚未公开发布,所以收集的提示词比较少,目前仅 79 个,可以保持关注。 频道 @WidgetChannel

封面图片

OpenAI的Sora会砸掉谁的饭碗?

OpenAI的Sora会砸掉谁的饭碗? Google新模式性能完胜周四,Google突然发布了新一代多模态大模型Gemini 1.5 Pro,在与OpenAI的大模型之战中加速超越。这是业界迄今最强的大语言模型,最高可支持10,000K Token上下文,直接将性能提升到了百万级别,在性能上完全秒杀了OpenAI的GPT-4 Turbo。百万级别Token意味着什么?GoogleAI项目负责人杰夫·迪恩(Jeff Dean)解释说,在Gemini 1.5 Pro百万级别上下文窗口支持能力下,用户可以完成复杂的内容交互,轻松解析整本图书、电影、播客,理解非常长的文档,甚至是数百个文件数十万行的代码库。Gemini 1.5 Pro的发布,意味着Google在和OpenAI的军备竞赛中占据了强大的性能优势。相比之下,OpenAI的GPT-4 Turbo只能处理128k Token,而且近期更是出现了性能下滑的不利状况,直到上个月发布更新之后才有所改善。然而,OpenAI并没有让Google独美。就在同一天,他们发布了文本生成视频的AI模型Sora,只需文本就能自动生成视频;继文本模型ChatGPT和图片模型Dall-E之后,OpenAI又开始颠覆视频领域。相比GoogleGemini 1.5 Pro基于数据性能的硬实力优势,Sora基于视觉美学的惊艳表现,显然更容易让人印象深刻,迅速成为了社交网站上的热点。以假乱真细节惊艳Sora到底惊艳在哪里?OpenAI展示了多段Sora制作的视频内容,光是这些片段,就已经足够让人大跌眼镜。OpenAI在官方博客中写道,Sora不仅可以理解用户的需求,还知道这些事物在现实世界如何存在。只需要输入一段文本,Sora就能自动生成最长一分钟的高清视频。令人难以置信的是,Sora不仅可以准确把握用户文本中的复杂意思,并且还能分拆出不同的元素,将其转换为有具体创意构思的视频内容,看起来就像是专业导演、摄像和剪辑的作品。一位戴着墨镜、穿着皮衣的时尚女子走在雨后夜晚的东京市区街道上,抹了鲜艳唇彩的唇角微微翘起,即便带着墨镜也能看到她的微笑,地面的积水映出了她的身影和灯红酒绿的霓虹灯;热闹非凡的唐人街正在进行舞龙表演,熙熙攘攘的人群目光都聚焦在跃动的彩龙身上,整个环境的喜庆氛围仿佛令人身临其境。与此前的AI视频存在明显塑料感不同,此次Sora制作的视频在逼真度和艺术感方面有着显著差别:微微卷曲的人物头发,女人脸上的黑痣粉刺,地面积水倒映的霓虹光影,街头商贩摆卖的诸多食品,天空飘落的樱花细雪,细节的精细度几乎已经做到了以假乱真。更令人惊讶的是,Sora视频在构图、色彩、创意和运镜方面,都呈现出明显的电影风格,无论是一镜到底还是多机位都可以无缝切换,甚至还有“演员”的表情神态,这是此前的文生视频产品所不具备的。OpenAI一出手就将整个AI视频行业提升了一个级别。虽然Sora制作的视频还没有到完美的地步,仔细看还能看出“穿帮”之处,人物吃过的饼干甚至会完好无损,但在影像画质上已经较此前的AI视频有了质的飞跃,甚至有了电影的质感。而且,仅仅根据一段抽象的文字就能制作类电影的多镜头视频,这种语义理解和镜头运用能力更是接近了人类导演、摄像与剪辑的水平。显然,视频领域的ChatGPT时刻已经到来。AI进化速度令人震惊Sora发布之后,网络一片惊叹,几乎抢尽了Gemini的风头。AI的进化速度实在令人震惊。要知道,此时距离OpenAI推出ChatGPT,开启生成式AI时代,仅仅过去了14个月时间。直到去年,我们才刚刚熟悉文本生成图片的产品,而仅仅半年前,MidJourney创作的AI图片里还会出现六指人物。而现在,Sora的视频就已经让所有人开始感受到现实和虚拟的界限模糊。虽然OpenAI的GPT-4 Turbo此前出现了性能下滑和速度变慢的状况,令人担心生成式AI的增长遭遇了瓶颈;但Sora的发布无疑打消了所有人的担忧。云计算公司Box创始人兼CEO列维(Aaron Levie)在Sora发布之后感慨说,“如果有人还担心AI进化速度会变慢的话,我们又一次看到了完全相反的典范。”目前Sora只面向邀请的制作者和安全专家开放测试,发现和解决可能的安全问题,还没有宣布正式的公测时间表。毕竟在虚假信息充斥的互联网,DeepFake的道德问题也已经成为了关注焦点,像Sora这样以假乱真的视频一旦被滥用,可能会引发灾难性后果。在发布Sora的几乎同一时间,OpenAI还完成了一项要约售股交易,并不是融资用于公司用途,而是允许员工向以Thrive Capital牵头的风投机构出售现有股份套现。值得一提的是,作为OpenAI董事会成员,奥特曼自己并不持有公司股票,估值飙升并不能给他带来巨额财富。此次交易对OpenAI的整体估值达到了800亿美元,较之去年年初的300亿美元飙升了两倍多。按照投融资市场调研公司CB Insights统计,OpenAI已经成为全球估值最高的创业公司之一,仅次于字节跳动和SpaceX。实际上,此次交易本应在去年11月完成,只是因为奥特曼与董事会的冲突风波才被迫搁置。随着奥特曼重新回到OpenAI CEO职位,投资者再次给这家AI巨头投出了信任票。显然,在Sora正式发布之后,OpenAI的估值还会进一步飙升。巨头出手碾压AGI同行那么,令人惊艳的文本生视频Sora究竟会带来哪些冲击?AGI视频同行无疑是遭受最直接冲击的。Sora发布之后,AI视频创业公司Runway CEO瓦伦祖拉(Cristóbal Valenzuela)在X平台(此前的Twitter)上简单发布了两个字,“Game On.”(竞争开始了)。几个月前,Runway刚刚发布了Gen-2视频模型。而另一家AI视频公司Stability的CEO莫斯塔克(Emad Mostaque)则直接感慨,“奥特曼真是个魔术师。”Runway创办已有五年时间,在AI视频领域占据着先发优势,已经得到了好莱坞主流片场的使用。去年拿到七项奥斯卡大奖的年度影片《瞬息全宇宙》就使用了Runway来制作AI视频。在《瞬息全宇宙》大获成功之后,Runway新一轮融资估值也水涨船高,达到了15亿美元,是一年之前估值的三倍。文生视频领域是目前最热的创业领域。过去几个月时间,随着生成式AI热潮涌动,也涌现出了不少文本生视频和图片生视频的创业公司。A16z的AI投资合伙人摩尔(Justin Moore)列出了他所跟踪的20多家文生视频创业团队,其中不乏Pika、Zeroscope这样一度引发网络惊叹的创业新贵。去年年底,斯坦福华人毕业生创办的Pika视频一度引发了中美互联网的惊叹。得益于AI视频的惊艳表现,这家仅有四人的创业公司,在不到半年时间就完成了超过5500万美元的三轮融资,估值飙升到了2.5亿美元。但现在,AI巨头OpenAI直接抛出了Sora。无论是视频时长,还是画面精细度,还是细节完整性,或是多镜头拍摄,Sora都远远超越了这些小创业公司的视频,用碾压来形容也并不为过。虽然AI视频领域还有着巨大的提升和增长空间,但这些小公司的未来是否有能力与OpenAI竞争依然是个巨大的疑问。左右好莱坞劳资谈判不过,Sora影响的不仅是其他AGI视频创业公司的生存空间,更会改变整个好莱坞以及电影、电视、广告、游戏行业的未来游戏规则。好莱坞使用AI制作图片和视频,并不是什么新鲜事,从CG(电脑动画)、VR到AI,影视娱乐行业一直是高新技术的最先采用者。然而,与其他技术不同,AI工具始终是扎在好莱坞从业人员心中的一根刺。除了《瞬息全宇宙》使用了Runway的AI视频工具,去年21世纪福克斯已经与IBM沃森合作,用AI工具为关于AI主题的恐怖片《摩根》制作预告片;迪士尼旗下的漫威更完全用AI制作了《秘密入侵》的开头动画。当时正值好莱坞演员和编剧工会大罢工期间。而生成式AI在影视行业的应用也是双方的争议焦点之一。就在双方谈判的过程中,演员编剧们得知迪士尼漫威新一季的... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人