OpenAI Sora更强大功能曝光:可一次生成多个视频、拼接展示

OpenAI Sora更强大功能曝光:可一次生成多个视频、拼接展示 OpenAI研究科学家比尔·皮布尔斯(Bill Peebles)在X上发文称,Sora可以同时生成多个并排在一起的视频。根据他在推文中展示的动图,Sora生成了5个人们在下雪天漫步、玩雪的视频。皮布尔斯展示的Sora视频拼贴功能“这是Sora一次性生成的视频样本,并不是我们把5个视频拼接在一起。Sora决定同时拥有五个不同的视角!”皮布尔斯在推文中称。目前,OpenAI尚未向公众开放Sora。OpenAI称,该模型正在接受测试,只分享给了一批精选的研究人员和学者。他们将研究Sora,以寻找该模型被滥用的风险。 ... PC版: 手机版:

相关推荐

封面图片

首支由 OpenAI Sora 生成的 MV

首支由 OpenAI Sora 生成的 MV 就在五一期间,OpenAI 钦定的 Sora 早鸟用户 编剧兼导演,重磅发布了「首支利用 OpenAI Sora 制作的官方 MV」! 这段 4 分钟的视频是为独立音乐家 Washed Out(本名 Ernest Weatherly Greene Jr.)及其新单曲「The Hardest Part」量身订做的。概括来说,它是由一段连续快速变焦镜头序列组成,并且通过巧妙地拼接将不同的场景紧密联系在一起。 而更震撼的是,Paul Trillo 为了制作这个视频总共用 Sora 生成了多达 700 个片段,然后从中精挑细选了 55 个,并在 Adobe Premiere 中进行拼接。最终,大约用了 6 周的时间,这支 MV 便制作完成了。来源 , 频道:@kejiqu 群组:@kejiquchat

封面图片

人工智能公司 OpenAI 向好莱坞推荐视频生成技术Sora

人工智能公司 OpenAI 向好莱坞推荐视频生成技术Sora 人工智能公司 OpenAI 在好莱坞发起了魅力攻势,与派拉蒙、环球和华纳兄弟探索等主要电影公司举行了会议,展示其视频生成技术 Sora,并缓解对人工智能模型将损害电影行业的担忧。据多位知情人士透露,首席执行官萨姆•奥尔特曼和首席运营官布拉德•莱特卡普在最近几天举行的会议上向电影行业巨头的高管们做了介绍。奥尔特曼和莱特卡普展示了 Sora 一个新的生成式人工智能模型,能够根据简单的文字提示生成细节栩栩如生的视频。

封面图片

OpenAI的Sora视频生成模型也能用来渲染游戏

OpenAI的Sora视频生成模型也能用来渲染视频游戏 这篇题为《作为世界模拟器的视频生成模型》(Video generation models as world simulators)的论文由多位 OpenAI 研究人员共同撰写,揭开了 Sora 架构关键方面的神秘面纱例如,Sora 可以生成任意分辨率和长宽比(最高 1080p)的视频。根据论文所述,Sora 能够执行一系列图像和视频编辑任务,从创建循环视频、向前或向后延伸视频到更改现有视频的背景。但最吸引笔者的还是 Sora"模拟数字世界"的能力,OpenAI 的合著者如是说。在一次实验中,OpenAI 将 Sora 放到 Minecraft 上,让它在控制玩家的同时渲染世界及其动态(包括物理)。Sora 在 Minecraft 中控制一名玩家,并渲染视频游戏世界,请注意,颗粒感是由视频到 GIF 的转换工具造成的,而不是 Sora。图片来源:OpenAIOpenAI那么,Sora 是如何做到这一点的呢?正如 NVIDIA 高级研究员 Jim Fan(通过 Quartz)所说,与其说 Sora 是一个创意引擎,不如说它是一个"数据驱动的物理引擎"。它不仅能生成单张照片或视频,还能确定环境中每个物体的物理特性,并根据这些计算结果渲染照片或视频(或交互式 3D 世界,视情况而定)。合著者写道:"这些功能表明,继续扩展视频模型是开发物理和数字世界以及其中的物体、动物和人的高能力模拟器的一条大有可为的途径。"现在,Sora在视频游戏领域也有其通常的局限性。该模型无法准确模拟玻璃碎裂等基本互动的物理过程。即使在可以建模的互动中,Sora 也经常出现不一致的情况,例如在渲染一个人吃汉堡时,却无法渲染汉堡上的咬痕。不过,如果我没看错的话,Sora 似乎可以为更逼真(甚至可能是逼真)的程序生成游戏铺平道路。这既令人兴奋,又令人恐惧(考虑到Deepfake的影响)这也许就是为什么 OpenAI 选择暂时将 Sora 关在一个非常有限的访问程序后面的原因。相关文章:OpenAI 推出文本到视频人工智能模型 SoraOpenAI首个视频生成模型发布 能生成长达1分钟的高清视频 ... PC版: 手机版:

封面图片

奥尔特曼选取网友提示词 用OpenAI新款大模型Sora生成视频

奥尔特曼选取网友提示词 用OpenAI新款大模型Sora生成视频 一位时髦女士漫步在东京街头,周围是温暖闪烁的霓虹灯和动感的城市标志。一名年约三十的宇航员戴着红色针织摩托头盔展开冒险之旅,电影预告片呈现其穿梭于蓝天白云与盐湖沙漠之间的精彩瞬间,独特的电影风格、采用35毫米胶片拍摄,色彩鲜艳。竖屏超近景视角下,这只蜥蜴细节拉满:OpenAI表示,公司正在教授人工智能理解和模拟运动中的物理世界,目标是训练出能够帮助人们解决需要与现实世界互动的问题的模型。在此,隆重推出文本到视频模型Sora。Sora可以生成长达一分钟的视频,同时保证视觉质量和符合用户提示的要求。OpenAI创始人兼CEOSam Altman(奥尔特曼)太会玩了,让网友评论回复Prompt(大语言模型中的提示词),他选一些用Sora生成视频。截至发稿,奥尔特曼连发多条根据网友提示词生成的视频,包括不同动物在海上进行自行车比赛、发布自制面疙瘩烹饪教学视频的祖母、两只金毛犬在山顶做播客、日落时分火星上进行的一场无人机竞赛等。但这些视频时长为9秒至17秒不等。技术层面,Sora采用扩散模型(diffusion probabilistic models)技术,基于Transformer架构,但为了解决Transformer架构核心组件注意力机制的长文本、高分辨率图像处理等问题,扩散模型用可扩展性更强的状态空间模型(SSM)主干替代了传统架构中的注意力机制,可以使用更少的算力,生成高分辨率图像。此前Midjourney与Stable Diffusion的图像与视频生成器同样基于扩散模型。同时,Sora也存在一定的技术不成熟之处。OpenAI表示,Sora可能难以准确模拟复杂场景的物理原理,可能无法理解因果关系,可能混淆提示的空间细节,可能难以精确描述随着时间推移发生的事件,如遵循特定的相机轨迹等。根据OpenAI关于Sora的技术报告《Video generation models as world simulators》(以下简称报告),跟大语言模型一样,Sora也有涌现的模拟能力。OpenAI方面在技术报告中表示,并未将Sora单纯视作视频模型,而是将视频生成模型作为“世界模拟器”,不仅可以在不同设备的原生宽高比直接创建内容,而且展示了一些有趣的模拟能力,如3D一致性、长期一致性和对象持久性等。目前Sora能够生成一分钟的高保真视频,OpenAI认为扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。报告指出,OpenAI研究了在视频数据上进行大规模训练的生成模型。具体而言,联合训练了文本条件扩散模型,该模型可处理不同持续时间、分辨率和长宽比的视频和图像。OpenAI利用了一种基于时空补丁的视频和图像潜在代码的变压器架构。最大的模型Sora能够生成一分钟的高保真视频。结果表明,扩展视频生成模型是构建通用物理世界模拟器的有前途的途径。报告重点介绍了OpenAI将各类型视觉数据转化为统一表示的方法,这种方法能够对生成模型进行大规模训练,并对Sora的能力与局限进行定性评估。先前的大量研究已经探索了使用多种方法对视频数据进行生成建模,包括循环网络、生成对抗网络、自回归转换器和扩散模型。这些研究往往只关注于狭窄类别的视觉数据、较短的视频或固定大小的视频。而Sora是一个通用的视觉数据模型,它能够生成跨越不同时长、纵横比和分辨率的视频和图像,甚至能够生成长达一分钟的高清视频。OpenAI从大型语言模型中汲取灵感,这些模型通过训练互联网规模的数据获得通用能力。LLM范式的成功在一定程度上得益于令牌的使用,这些令牌巧妙地统一了文本的不同模式代码、数学和各种自然语言。在这项工作中,OpenAI考虑视觉数据的生成模型如何继承这些优势。虽然LLM有文本令牌,但Sora有视觉补丁。之前已经证明,补丁是视觉数据模型的有效表示。补丁是一种高度可扩展且有效的表示,可用于在多种类型的视频和图像上训练生成模型。Sora支持采样多种分辨率视频,包括1920x1080p的宽屏视频、1080x1920的竖屏视频以及介于两者之间的所有分辨率。这使得Sora能够直接以原生纵横比为不同的设备创建内容。同时,它还允许在生成全分辨率内容之前,使用相同的模型快速制作较小尺寸的内容原型。 ... PC版: 手机版:

封面图片

OpenAI Sora通过文字生成的视频

OpenAI Sora通过文字生成的视频 仔细看甚至可以看到猫在不同光线条件下的瞳孔变化 HHPoker德州扑克 | 菲律宾品茶修车 OK区块链娱乐城 | 佳运官方频道 广告投放联系

封面图片

OpenAI CTO:Sora今年将发布 会添加语音功能

OpenAI CTO:Sora今年将发布 会添加语音功能 以下为翻译全文:某个清晨醒来时,你是否曾幻想过一头公牛在精致的瓷器店中悠然自得地行走的场景?要实现这一奇幻景象,你有三种途径:A)联系当地的动物驯养师以及知名家居品牌Crate & Barrel;B)雇请顶尖的好莱坞动画制作人;C)使用神奇的AI工具Sora,简单输入指令即可。欢迎进入人工智能的下一个“魔法世界”。在这里,你的语言能够化作逼真、流畅且细腻的视频画面。OpenAI计划在今年晚些时候向大众推出其文本到视频的转换工具Sora。尽管正式发布尚需时日,但OpenAI已经向我们揭示了这款工具的惊人潜力:仅需精心设计的文本指令,便可创造出几乎足以替代许多视频制作专业人员的作品。《华尔街日报》专栏作家乔安娜·斯特恩(Joanna Stern)向该公司提交了几条由她自己编写的提示,比如一条美人鱼和她的螃蟹伙伴评测智能手机,或是一头公牛在精致的瓷器店内自由漫步。斯特恩随后亲身体验了Sora的神奇之处,她利用这款工具制作了一段模拟对OpenAI首席技术官穆拉蒂进行虚拟视频采访的片段,两人深入剖析了这些有趣的问题,并对该技术的潜在问题进行了探讨。OpenAI在上个月首次展示了用其生成式人工智能工具制作的视频预览,整个互联网为之沸腾。与之前那些断断续续、分辨率低下的人工智能视频技术相比,Sora生成的内容无疑是一场视觉盛宴,堪比高品质的自然纪录片或大制作电影。与之前的人工智能技术相似,Sora首先让我们对其能力感到惊叹,随即又担忧其对社会的影响。面对斯特恩的担忧,穆拉蒂向她保证,OpenAI在发布这一强大工具时将采取慎重的步骤。但这并不意味着一切都将无忧无虑。这些超逼真视频真的是Sora生成的吗?斯特恩对Sora生成的视频感到深深震撼:从无人机视角拍摄的意大利阿马尔菲海岸的壮观景色,到手持自拍杆的柯基犬,再到冲浪板上活泼的动画水獭,这些画面无一不展示了Sora在创意和细节处理上的强大能力。她进一步挑战Sora,要求它生成更接近日常生活的场景:“两名30多岁、棕发的职业女性在一个明亮的演播室里坐下接受新闻采访。”Sora生成的视频中,两位女性的嘴唇和头发动作自然流畅,皮夹克的细节也清晰可见。穆拉蒂透露,这段20秒长、720P分辨率的视频仅用了几分钟就完成了生成,尽管目前还未加入声音。但她承诺,OpenAI正在计划为Sora增添语音功能。为了对比Sora与其他工具的区别,斯特恩也在另一个AI视频生成器Runway上输入了相同的提示。然而,得到的结果大相径庭,Runway生成的画面是两个模糊、幽灵般的女性形象,它们看起来像是直接从恶梦中走出来的,令人毛骨悚然。那么,Sora究竟是如何实现这一神奇转换的呢?尽管解释其内部工作原理可能比解释美人鱼的进化还要复杂,但简单来说,Sora背后的AI模型通过分析大量视频数据,学会了识别和理解各种物体与动作。输入文本提示后,模型能够迅速勾勒出整个场景的基本轮廓,并逐帧添加细节。行业观察人士和竞争对手,包括Runway的首席执行官,都认为OpenAI的这些显著成就归功于其巨大的计算资源和庞大的训练数据量。但OpenAI最近也面临着版权侵犯的指控,因未经授权使用大量在线内容训练其ChatGPT模型。当被问及OpenAI为训练Sora使用了哪些数据时,穆拉蒂表示:“我们主要使用了公开可获取的数据及已授权数据。”。当被进一步追问这些数据是否包括YouTube、Instagram和Facebook上的视频时,穆拉蒂表示她并不清楚具体细节,但后来确认,已授权的材料确实包含了知名版权图片网站Shutterstock上的内容。人工智能模型对普通用户来说往往是个神秘的黑匣子。我们看到的是输入和输出,而中间的处理过程则不得而知。因此,我们可能永远无法完全理解为何生成的内容展现出某些特定的风格或特征。例如,斯特恩提到的那条美人鱼身旁的甲壳类伙伴留着类似《海绵宝宝》中蟹老板的胡须,这是否是模型的创新还是某种偶然?穆拉蒂还告诉斯特恩,当前Sora生成视频的成本远高于该公司的图像生成器Dall-E。但她承诺,在Sora正式向公众发布前,团队将对其进行优化,以降低计算资源消耗。如何识别人工智能生成视频?在当前的早期阶段,人工智能生成的内容中还存在一些明显的瑕疵。例如,在Sora生成的采访视频中,一位浅发色女子的一只手似乎多出了五根手指。对此,穆拉蒂解释道:“准确再现手部运动真的很难。”在另一次测试中,斯特恩期望看到一个机器人从电影制片人手中夺走摄像机的场景。但Sora生成的是一位人类电影制片人突变成机器人,场面显得突兀且不自然。更有甚者,背景中的黄色出租车也不知怎的变成了银色轿车。穆拉蒂承认模型“在维持连贯性方面表现尚可,但并不完美”。这引出了一个深刻的议题:当这些缺陷得到修正,人工智能生成的视频愈发逼真时,我们如何区分真实与人工智能生成的视频?Sora生成的每个视频下方都会有一个水印。穆拉蒂解释说,最终这些视频还将包含元数据,以标示其生成方式和来源。此外,OpenAI设有一个名为“Sora红队”的安全测试小组。该团队的职责是提供各种提示,探索潜在的漏洞、偏见和其他可能的有害结果。穆拉蒂说:“这就是我们目前还没有广泛部署这些系统的原因。我们需要先弄清楚这些问题,然后才能放心地将其推向市场。”就Sora的提示词政策而言,穆拉蒂透露,它可能借鉴OpenAI的另一工具Dall-E的做法。例如,为了防止滥用和侵犯隐私,用户将无法使用Sora来生成公众人物的形象。当斯特恩试图输入“在任美国总统的电视新闻画面”时,Sora拒绝了这一请求。斯特恩也尝试让Sora生成“在东欧小镇上行走的士兵”的视频,但也遭到了拒绝。对于裸露等敏感内容的提示,穆拉蒂表示OpenAI正在与艺术家和专家紧密合作,共同探讨如何在不阻碍创意表现的同时,设立合理的“护栏和限制”。将与好莱坞合作随技术发展,像Sora这样的AI工具将变得更强大、更精细。这种进步可能会改变传统的工作方式,如无人机操作员或插画家的角色,引起好莱坞既期待又忧虑的反响。演员、电影制片人和工作室老板泰勒·佩里(Tyler Perry)表示,看到Sora的潜力后,他宣布暂停耗资8亿美元的工作室扩建计划。他认为这项技术能够削减布景和外景拍摄的成本,但同时也对电影行业和演员的未来抱有担忧。代表好莱坞和全美各地动画艺术家的动画协会主席珍妮特·莫雷诺·金(Jeanette Moreno King)也称,尽管艺术创作决策仍需人类参与和判断力,未来却是充满不确定性的迷雾。爱德华·萨奇(EdwardSaatchi)及其人工智能视频工作室Fable正梦想打造一个AI版Netflix:仅需输入一段文本提示,便可呈现完整的电视剧集。对于Sora对视频制作行业的潜在影响,穆拉蒂重申了OpenAI采取的缓步审慎策略。她表示,OpenAI正在与行业内部人士合作,进行早期的测试和反馈征集,希望全球的电影制作者和创作者能加入这一探索过程,共同促进电影产业的发展。如果将OpenAI比作一开始提到的那头在瓷器店里自由漫步的公牛,那么它目前可能需要小心行事。但最终,它可能不可避免地将带来一些破坏。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人