关于 Sora 的十点思考

关于 Sora 的十点思考 1)Openai 出于狙击 Google 的目的,在相近的时间节点推出了 Sora,它是一个文本转视频的模型,可以做到输入 Prompt,输出视频内容;相较于竞争对手 Pika、Runway 等,Sora 拥有60s的视频长度、连贯性的画面、基础物理逻辑的遵循等特点; 2)Sora 的诞生,让视频关联行业会产生较大的成本结构变化,会导致摄影、短视频、电影等行业产生较大的变化,同时会让一些原本受限于软件使用无法进入行业的人,可以依靠创意进入相关行业。鲁智深大战林黛玉的场景,以后只需要一句 Prompt 即可实现; 3)对于创业公司来说,一定要仔细梳理Sam说过的话,考虑他的话不完全是为了营销目的进行宣传的话,而是有一定可能性已经实现或者即将实现; 4)Sora 可能还需要至少3个月的时间才会推出,这段时间需要测试公众的反应,同时寻求规避潜在风险; 5)有很大可能,Sora 的生成界面是嵌入在聊天对话内,但是第三方一定会考虑接入 Sora 的能力,宣传自己可以基于 Sora 的生成进行二次编辑,在这个过程当中,剪映、快影等应该都会跟进,Adobe 也会受到影响; 6)从对公司的影响来看,做视频生成的相关公司受到直接的冲击,做视频编辑的公司受到一定的冲击,做视频分发的公司可能会需要想办法识别AI创作类视频。对于依靠视频作为主要素材来源的行业,比如广告、短视频博主等都可能会受到冲击,加剧竞争的烈度,淘汰一大批人,最后竞争升维; 7)对普通人来说,要考虑的就是学会讲好故事,目前来说,文稿、视频、语音都可以通过不同AI工具的串联进行合并处理,一定会有公司化的方式运作视频内容的生成,这个过程会更简单以及轻量化,甚至可能5人以下的小团队就可以搞定; 8)文生视频的进展可能比大部分人的预期最快的情况还要快很多,原本只想着能不能先到15秒,没想到可以直接推进到60秒,甚至1小时都不是难以想象的事情; 9)目前整体的生成成本单次生成预估可能要超过1美元,对于 Openai 来说,如果不把成本降下来,工具可能还比较困难推进到公众面前。按照之前的迭代速度,通常半年左右会有一个新的版本出来,预估 Sora 到 3.0 或者 4.0 的时候,应该会产生飞跃; 10)对于整体视频的生成,应该是一次性生成,甚至会支持一次性生成多机位多角度的视频,支持对单视频进行二次编辑,比如插入新素材或者处理已有素材等,但是如果想要做到更智能的生成,可能还需要一点时间。

相关推荐

封面图片

关于 Sora 的十个赚钱方法:

关于 Sora 的十个赚钱方法: 1、售卖Sora账号或邀请码:利用Sora的早期访问限制,通过售卖账号或邀请码来获利。 2、售卖高质量的视频生成提示(prompt):在专门的平台上出售精心设计的prompt,帮助用户生成更好的视频。 3、制作/代生成AI视频:为那些不愿意自己操作AI工具的用户代生成视频,或者为有定制需求的用户提供服务。 4、使用Sora生成视频做自媒体:利用Sora生成的视频内容,发布到自媒体平台如抖音、快手等,吸引流量和粉丝。 5、上传Sora生成的视频到素材网站:将生成的视频上传到素材交易网站,通过销售视频素材获利。 6、知识付费,制作Sora使用教程:制作关于Sora的教程或课程,通过知识付费方式赚钱。 7、围绕Sora的电商生意:在电商平台上销售与Sora相关的工具、教程或课程,利用精准用户群体。 8、开发Sora相关的网站或工具:对于有技术背景的人,可以开发与Sora相关的网站或工具,如导航网站或AI写真工具。 9、AI小说推文:利用Sora生成视频内容,用于AI小说推文,可能会成为新的盈利点。 10、直播带货推广Sora相关产品:通过直播方式推广Sora或其他相关付费产品,帮助他人销售并从中获利。 这些机会涵盖了从直接销售账号、提供生成服务、内容创作、知识分享到电商平台销售等多个方面,为不同背景和技能的人提供了多样化的盈利途径。

封面图片

人工智能公司 OpenAI 向好莱坞推荐视频生成技术Sora

人工智能公司 OpenAI 向好莱坞推荐视频生成技术Sora 人工智能公司 OpenAI 在好莱坞发起了魅力攻势,与派拉蒙、环球和华纳兄弟探索等主要电影公司举行了会议,展示其视频生成技术 Sora,并缓解对人工智能模型将损害电影行业的担忧。据多位知情人士透露,首席执行官萨姆•奥尔特曼和首席运营官布拉德•莱特卡普在最近几天举行的会议上向电影行业巨头的高管们做了介绍。奥尔特曼和莱特卡普展示了 Sora 一个新的生成式人工智能模型,能够根据简单的文字提示生成细节栩栩如生的视频。

封面图片

Sora对新闻业只有坏处?

Sora对新闻业只有坏处? Sora生成视频:穿过东京郊区的火车窗外对此,复旦大学新闻学院教授、博士生导师邓建国在接受中新社“庖丁解news”专访时表示,“视频记者”这四个字中重要的不是“视频”而是“记者”。新闻报道追求真实(facts),而Sora全是虚拟(fictional),因此它从本质上对新闻业只有坏处没有好处。它唯一可以被新闻业利用的也许是建构在新闻事实基础上的情景再现。01突破性:Sora是向着元宇宙方向的迈进相较于Runway Gen 2、Pika等还在突破几秒内连贯性、单镜头生成的AI视频工具,Sora已经可以生成60秒一镜到底的视频。在OpenAI发布的示例中,视频中的女主角、背景人物栩栩如生、细节丰富,各种镜头随意切换,人物都是保持了稳定性,Sora的AI视频效果,几乎和人工拍摄不相上下。“Sora可以基于一段文字、图片和视频提示(prompt),理解它并根据相应的物理原理在时空上向过去或未来推演,因此而形成60秒钟的视频。”邓建国表示,Sora不是一些人所说的“导致了物理原理的消失”,而是证明了物理原理的强大,也正是因为这一能力,Sora被称为“世界模型”(world model)或者“世界模拟器”(world simulator),因为它具有根据已有信息建模出一个未来可能的世界的能力。邓建国进一步指出,我们此前用文字建构世界,比如曹雪芹用美轮美奂的文字建构了“大观园”,我们通过自己的想象力对其进行可视化;今天同样用文字,我们则可以用技术对其进行可视化。Sora 所基于的技术,如芯片算力、算法以及图形渲染引擎Unreal Engine 5等,都是建设元宇宙的基础设施,因此Sora是向着元宇宙方向的迈进。02冲击性:视频记者不必瑟瑟发抖如果说ChatGPT是语言大师,那么Sora则是一个多模态数据的通才。有学者提出,Sora的出现将深刻影响10个行业,包括短视频行业、影视行业、游戏行业、广告行业、教育行业、电商行业、制造业、科学研究、建筑行业、艺术创作行业等。在人才培养方面,邓建国预测,Sora将对大学影视专业的人才培养形成较大的冲击。Sora生成视频:几只巨大的毛茸茸的猛犸象正踏着白雪皑皑的草地走来中国人民大学吴玉章讲席教授、国家发展与战略研究院研究员刘永谋在《新京报》评论撰文认为,短视频时代,Sora既然可与人工媲美,制造短视频的专门团队可能就面临下岗危险。要知道,短视频的摄影、导演、剪辑等任务,Sora“一个人”费点电就全包了。对于媒体而言,不少视频记者担心自己的工作会被Sora代替。“‘视频记者’这四个字中重要的不是‘视频’而是‘记者’。如果记者没有脚力、眼力、脑力和笔力,而仅仅满足于坐在空调房里进行网络内容搜索、编辑和发布,这样的记者在任何时候都不具备不可替代性。”与此同时,邓建国也表示,目前Sora生成的视频还不能做到完全真实,有的细节破绽用肉眼可以识别,有的通过AI能识别。所以创作者如何使用文字精确地控制视频的细节和效果,目前还有待Sora迭代发展。提示词为“考古学家在沙漠中发现了一把普通的塑料椅子,正小心翼翼地挖掘和除尘”,Sora生成的视频出现了椅子变形、自动行走等诡异的场景“我们一直在说,传播业已经发生了‘视觉转向’(a visual turn),但ChatGPT、Midjourney、 Stable Diffusion 和Sora似乎告诉我们,文字是一切媒介之母。影视业和短视频从业者仍然不能抛弃文字,而要精通文字表达。”03危险性:警惕深度造伪风险图文时代,都说“有图有真相”,结果发现图可以P;到了视频时代,又有人说“有视频有真相”,结果现在视频也可以AI生成了。最近美国巨星Taylor Swift就被深度伪造色情内容而引发舆论关注,X(原名“Twitter”)也被迫禁止用户对她名字的检索。“过于逼真的AI视频很有可能会造成假新闻泛滥,给新闻伦理和新闻治理带来巨大挑战。”邓建国表示,人工智能技术被用于多模态的内容生产(AIGC)可以降本增效,但同时也引入了深度伪造的风险。“新闻报道追求真实(facts),而Sora全是虚拟(fictional),因此它从本质上对新闻业只有坏处没有好处。我想,它唯一可以被新闻业利用的也许是建构在新闻事实基础上的情景再现。”“让事情更为棘手的是,从平台算法开始到现在的人工智能,由于涉及到海量数据、极为复杂的算法,以及众多用户与ChatGPT及Sora的个性化互动,即使是人工智能专家也无法精确预测和解释人工智能给出的每一个输出背后的原因,这给对AI的规制带来了前所未有的挑战。”邓建国表示,从文字开始,媒介技术就是生产复制品(化身、幻影、鬼魂)的工具,所以我们要从技术生产者、政策制定者、新闻媒体、教育机构和用户等多方面共同规制AIGC。 ... PC版: 手机版:

封面图片

对sora比较深入的分析

对sora比较深入的分析 从电影和游戏行业的视角出发。指出了Sora在模拟物理现象和创意内容生成方面的局限性,也强调了其在多模态学习和生成能力上的潜力。以下是意见的总结: Sora的局限性: Sora虽然能够模拟物理现象,但其物理理解仍然脆弱,无法完全替代专业的物理引擎。 在物体交互和物理规则的理解上存在不足,可能导致超现实的结果。 Sora的生成内容依赖于大量数据的压缩和提炼,而非完全的物理模拟。 Sora的创新与潜力: 通过将视频内容压缩到隐空间,Sora有效地解决了处理高分辨率视频所需的计算资源问题。 其技术可能影响实时影像资料的处理和分析,如直播和监控视频数据。 Sora的应用可能为AI模型训练提供新路径,特别是在多模态数据和复杂现实世界情境的理解方面。 对未来的展望: Sora技术的发展可能需要在提升算力和优化算法效率之间找到平衡。 尽管Sora不会取代游戏引擎开发者或影视特效师,但它可以作为创意预览阶段的工具,帮助普通人进行民主化创作。 Sora的多模态能力可能通过3D引擎模型进一步发展,为虚拟世界的构建提供自动化支持。 这个见解强调AI在创意和模拟物理现象方面的潜力,同时也提醒我们AI技术仍有待发展,特别是在理解和模拟复杂物理世界方面。

封面图片

这是构成Sora基础之一的Diffusion Transformer论文作者关于Sora的一些猜测和技术解释。

这是构成Sora基础之一的Diffusion Transformer论文作者关于Sora的一些猜测和技术解释。 这个老哥可能是除了这篇论文的另一个作者(现在在Open AI工作)之外最懂Diffusion Transformer的人了,非常值得关注。 有趣的是这篇论文曾经在2023年的计算机视觉会议(CVR2023)上因“缺少创新性”而遭到拒绝,短短一年时间就变成了Sora这怪物模型的理论基础。 -正文开始- 以下是我对Sora技术报告的解读,其中包含了一些可能并不准确的猜测。首先,我非常感谢团队分享了极为有价值的见解和设计决策Sora确实令人惊叹,它将彻底改变视频生成领域。 我们目前所了解到的情况如下: 架构:Sora基于我们的扩散变换器(Diffusion Transformer,简称DiT)模型构建,该模型已发表在2023年国际计算机视觉会议(ICCV 2023)上。简单来说,它是一个结合了变换器(Transformer)主干的扩散模型: DiT = [变分自编码器(VAE)编码器 + 视觉变换器(ViT)+ 去噪扩散概率模型(DDPM)+ VAE解码器]。 根据报告,这个模型似乎没有太多额外的复杂设计。 “视频压缩网络”:这看起来就像是一个在原始视频数据上训练的变分自编码器(VAE)。在实现良好的时间一致性方面,标记化(Tokenization)可能扮演着关键角色。顺便提一下,VAE本质上是一个卷积网络,所以从技术上说,DiT实际上是一个混合模型。 ;) 当Bill和我参与DiT项目时,我们并未专注于创新(详见我之前的推特),而是将重点放在了两个方面:简洁性和可扩展性。这些优先事项带来的不仅仅是概念上的优势。 简洁性代表着灵活性。关于标准的视觉变换器(ViT),人们常忽视的一个亮点是,它让模型在处理输入数据时变得更加灵活。例如,在遮蔽自编码器(MAE)中,ViT帮助我们只处理可见的区块,忽略被遮蔽的部分。同样,Sora可以通过在适当大小的网格中排列随机初始化的区块来控制生成视频的尺寸。而UNet并不直接提供这种灵活性。 猜测:Sora可能还使用了Google的Patch n’ Pack(NaViT)技术,使DiT能够适应不同的分辨率、持续时间和长宽比。

封面图片

#AI #Sora #web

#AI #Sora #web Sora Videos 又一个收集 Sora 生成视频的网站,比上次推荐的 SoraPrompts 的视频更多,也包含了官方 TikTok 发布的视频,并附有对应 prompt ,喜欢的可以看看。 频道 @WidgetChannel

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人