卧槽,Open AI的大招终于来了,发布视频生成模型 Sora,从演示来看生成时长、运动幅度以及稳定性均碾压现在的所有生

卧槽,Open AI的大招终于来了,发布视频生成模型 Sora,从演示来看视频生成时长、运动幅度以及稳定性均碾压现在的所有视频生成模型。 Sora能够创作出长达一分钟的视频,不仅保证了视频的视觉质量,还能准确响应用户的指令。将在今天想有限的访问者开放。 模型优势: Sora能够创造出包括多个角色、特定动作类型以及对主题和背景的精确细节描述的复杂场景。这款模型不仅能理解用户在指令中提出的需求,还能洞察这些元素在现实世界中是如何存在和表现的。 这款模型对语言的理解非常深刻,使其能够精准地识别用户的指令,并创造出表情丰富、情感生动的角色。此外,Sora还能在同一视频内制作多个镜头,同时确保角色的形象和整体的视觉风格保持一致。 工作原理: Sora是一种扩散模型(diffusion model),它通过从类似静态噪声的视频出发,逐步去除噪声,从而在多个步骤中生成视频。 Sora不仅能一次生成整个视频,还能延长已有视频的长度。我们通过使模型能够预见多个画面帧,解决了确保视频中主题即使暂时离开画面也能保持一致的难题。 Sora采用了类似于GPT模型的变压器架构(transformer architecture),这为其带来了优异的扩展性能。 在Sora中,视频和图像被表示为一系列小块数据,称为“补丁”(patches),每个补丁都类似于GPT中的“令牌”(token)。通过统一数据表示方式,我们能够在之前不可能的更广泛视觉数据范围内训练扩散变压器,包括不同的时长、分辨率和长宽比。 Sora基于DALL·E和GPT模型的研究成果。它采用了DALL·E 3中的重标记技术(recaptioning technique),为视觉训练数据生成详细描述的标题。因此,模型能更准确地遵循用户在生成视频中的文字指令。 除了能从文字指令生成视频外,Sora还能将现有静止图像转化为视频,准确地动态展现图像内容并关注细节。此外,它还能扩展现有视频或填补视频中缺失的画面。 了解更多:

相关推荐

封面图片

OpenAl Sora 视频生成耗时长:挑战与机遇并存

OpenAl Sora 视频生成耗时长:挑战与机遇并存 OpenAI 发布的Sora模型虽然能够根据文本生成逼真视频,但1分钟视频需要超过1小时渲染时间,反映了当前AI视频生成技术的挑战和未来的改进空间

封面图片

重磅!美国OpenAI发布首个视频生成模型

重磅!美国OpenAI发布首个视频生成模型 2月16日,OpenAI在其官网发布文生视频模型Sora。据介绍,该模型可以生成长达一分钟的视频,同时保持视觉标准并遵循用户提示。 该公司表示Sora能够生成复杂的场景,不仅包括多个角色,还有特定的动作类型,以及针对对象和背景的准确细节主题。除此之外,Sora还可以将静态图像制作成动画。 PS:我有个想法

封面图片

AI 视频生成 Sora 发布,眼见为实终结

AI 视频生成 Sora 发布,眼见为实终结 OpenAI 再次震撼世界,划时代文本生成视频模型 Sora 正式发布,这是以文本描述生成视频的人工智能模型 Sora 的介绍影片。通过一段文字,Sora 可以创建长达 60 秒的视频,其中包含高度详细的场景、复杂的摄像机运动以及充满活力的情感的多个角色。由于担心 Sora 可能被滥用,OpenAI 表示目前没有计划向公众发布该模型,而是给予小部分研究人员有限的访问权限,以理解模型的潜在危害。 From OpenAI via 开眼精选 (author: 开眼科技精选) Invalid media: video

封面图片

【快手发布国内首个效果对标Sora的视频生成大模型“可灵”,现已开放邀测】

【快手发布国内首个效果对标Sora的视频生成大模型“可灵”,现已开放邀测】 近日,快手“可灵”视频生成大模型官网正式上线。据介绍,可灵大模型为快手AI团队自研,基于快手在视频技术方面的多年积累,采用Sora相似的技术路线,结合多项自研技术创新,效果对标Sora。可灵大模型不仅具备强大的概念组合能力和想象力,还能够生成大幅度的合理运动、模拟物理世界特性。其生成的视频分辨率高达1080p,时长最高可达2分钟(帧率30fps),且支持自由的宽高比。目前,可灵大模型已在快影App开放邀测体验。(36氪)

封面图片

OpenAI的Sora视频生成模型也能用来渲染游戏

OpenAI的Sora视频生成模型也能用来渲染视频游戏 这篇题为《作为世界模拟器的视频生成模型》(Video generation models as world simulators)的论文由多位 OpenAI 研究人员共同撰写,揭开了 Sora 架构关键方面的神秘面纱例如,Sora 可以生成任意分辨率和长宽比(最高 1080p)的视频。根据论文所述,Sora 能够执行一系列图像和视频编辑任务,从创建循环视频、向前或向后延伸视频到更改现有视频的背景。但最吸引笔者的还是 Sora"模拟数字世界"的能力,OpenAI 的合著者如是说。在一次实验中,OpenAI 将 Sora 放到 Minecraft 上,让它在控制玩家的同时渲染世界及其动态(包括物理)。Sora 在 Minecraft 中控制一名玩家,并渲染视频游戏世界,请注意,颗粒感是由视频到 GIF 的转换工具造成的,而不是 Sora。图片来源:OpenAIOpenAI那么,Sora 是如何做到这一点的呢?正如 NVIDIA 高级研究员 Jim Fan(通过 Quartz)所说,与其说 Sora 是一个创意引擎,不如说它是一个"数据驱动的物理引擎"。它不仅能生成单张照片或视频,还能确定环境中每个物体的物理特性,并根据这些计算结果渲染照片或视频(或交互式 3D 世界,视情况而定)。合著者写道:"这些功能表明,继续扩展视频模型是开发物理和数字世界以及其中的物体、动物和人的高能力模拟器的一条大有可为的途径。"现在,Sora在视频游戏领域也有其通常的局限性。该模型无法准确模拟玻璃碎裂等基本互动的物理过程。即使在可以建模的互动中,Sora 也经常出现不一致的情况,例如在渲染一个人吃汉堡时,却无法渲染汉堡上的咬痕。不过,如果我没看错的话,Sora 似乎可以为更逼真(甚至可能是逼真)的程序生成游戏铺平道路。这既令人兴奋,又令人恐惧(考虑到Deepfake的影响)这也许就是为什么 OpenAI 选择暂时将 Sora 关在一个非常有限的访问程序后面的原因。相关文章:OpenAI 推出文本到视频人工智能模型 SoraOpenAI首个视频生成模型发布 能生成长达1分钟的高清视频 ... PC版: 手机版:

封面图片

快手发布国内首个效果对标Sora的视频生成大模型“可灵”,现已开放邀测

快手发布国内首个效果对标Sora的视频生成大模型“可灵”,现已开放邀测 近日,快手“可灵”视频生成大模型官网正式上线。据介绍,可灵大模型为快手AI团队自研,基于快手在视频技术方面的多年积累,采用Sora相似的技术路线,结合多项自研技术创新,效果对标Sora。可灵大模型不仅具备强大的概念组合能力和想象力,还能够生成大幅度的合理运动、模拟物理世界特性。其生成的视频分辨率高达1080p,时长最高可达2分钟(帧率30fps),且支持自由的宽高比。目前,可灵大模型已在快影App开放邀测体验。(36氪) 标签: #快手 #Sora #可灵 频道: @GodlyNews1 投稿: @GodlyNewsBot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人