卧槽，Open AI的大招终于来了，发布视频生成模型 Sora，从演示来看生成时长、运动幅度以及稳定性均碾压现在的所有生

卧槽，Open AI的大招终于来了，发布视频生成模型 Sora，从演示来看视频生成时长、运动幅度以及稳定性均碾压现在的所有视频生成模型。 Sora能够创作出长达一分钟的视频，不仅保证了视频的视觉质量，还能准确响应用户的指令。将在今天想有限的访问者开放。模型优势： Sora能够创造出包括多个角色、特定动作类型以及对主题和背景的精确细节描述的复杂场景。这款模型不仅能理解用户在指令中提出的需求，还能洞察这些元素在现实世界中是如何存在和表现的。这款模型对语言的理解非常深刻，使其能够精准地识别用户的指令，并创造出表情丰富、情感生动的角色。此外，Sora还能在同一视频内制作多个镜头，同时确保角色的形象和整体的视觉风格保持一致。工作原理： Sora是一种扩散模型(diffusion model)，它通过从类似静态噪声的视频出发，逐步去除噪声，从而在多个步骤中生成视频。 Sora不仅能一次生成整个视频，还能延长已有视频的长度。我们通过使模型能够预见多个画面帧，解决了确保视频中主题即使暂时离开画面也能保持一致的难题。 Sora采用了类似于GPT模型的变压器架构(transformer architecture)，这为其带来了优异的扩展性能。在Sora中，视频和图像被表示为一系列小块数据，称为“补丁”(patches)，每个补丁都类似于GPT中的“令牌”(token)。通过统一数据表示方式，我们能够在之前不可能的更广泛视觉数据范围内训练扩散变压器，包括不同的时长、分辨率和长宽比。 Sora基于DALL·E和GPT模型的研究成果。它采用了DALL·E 3中的重标记技术(recaptioning technique)，为视觉训练数据生成详细描述的标题。因此，模型能更准确地遵循用户在生成视频中的文字指令。除了能从文字指令生成视频外，Sora还能将现有静止图像转化为视频，准确地动态展现图像内容并关注细节。此外，它还能扩展现有视频或填补视频中缺失的画面。了解更多：

在Telegram中查看

相关推荐

OpenAl Sora 视频生成耗时长：挑战与机遇并存

OpenAl Sora 视频生成耗时长：挑战与机遇并存 OpenAI 发布的Sora模型虽然能够根据文本生成逼真视频，但1分钟视频需要超过1小时渲染时间，反映了当前AI视频生成技术的挑战和未来的改进空间

快手发布国内首个效果对标Sora的视频生成大模型“可灵”，现已开放邀测

快手发布国内首个效果对标Sora的视频生成大模型“可灵”，现已开放邀测近日，快手“可灵”视频生成大模型官网正式上线。据介绍，可灵大模型为快手AI团队自研，基于快手在视频技术方面的多年积累，采用Sora相似的技术路线，结合多项自研技术创新，效果对标Sora。可灵大模型不仅具备强大的概念组合能力和想象力，还能够生成大幅度的合理运动、模拟物理世界特性。其生成的视频分辨率高达1080p，时长最高可达2分钟（帧率30fps），且支持自由的宽高比。目前，可灵大模型已在快影App开放邀测体验。（36氪）标签: #快手 #Sora #可灵频道: @GodlyNews1 投稿: @GodlyNewsBot

OpenAI的Sora视频生成模型也能用来渲染游戏

OpenAI的Sora视频生成模型也能用来渲染视频游戏这篇题为《作为世界模拟器的视频生成模型》（Video generation models as world simulators）的论文由多位 OpenAI 研究人员共同撰写，揭开了 Sora 架构关键方面的神秘面纱例如，Sora 可以生成任意分辨率和长宽比（最高 1080p）的视频。根据论文所述，Sora 能够执行一系列图像和视频编辑任务，从创建循环视频、向前或向后延伸视频到更改现有视频的背景。但最吸引笔者的还是 Sora"模拟数字世界"的能力，OpenAI 的合著者如是说。在一次实验中，OpenAI 将 Sora 放到 Minecraft 上，让它在控制玩家的同时渲染世界及其动态（包括物理）。Sora 在 Minecraft 中控制一名玩家，并渲染视频游戏世界，请注意，颗粒感是由视频到 GIF 的转换工具造成的，而不是 Sora。图片来源：OpenAIOpenAI那么，Sora 是如何做到这一点的呢？正如 NVIDIA 高级研究员 Jim Fan（通过 Quartz）所说，与其说 Sora 是一个创意引擎，不如说它是一个"数据驱动的物理引擎"。它不仅能生成单张照片或视频，还能确定环境中每个物体的物理特性，并根据这些计算结果渲染照片或视频（或交互式 3D 世界，视情况而定）。合著者写道："这些功能表明，继续扩展视频模型是开发物理和数字世界以及其中的物体、动物和人的高能力模拟器的一条大有可为的途径。"现在，Sora在视频游戏领域也有其通常的局限性。该模型无法准确模拟玻璃碎裂等基本互动的物理过程。即使在可以建模的互动中，Sora 也经常出现不一致的情况，例如在渲染一个人吃汉堡时，却无法渲染汉堡上的咬痕。不过，如果我没看错的话，Sora 似乎可以为更逼真（甚至可能是逼真）的程序生成游戏铺平道路。这既令人兴奋，又令人恐惧（考虑到Deepfake的影响）这也许就是为什么 OpenAI 选择暂时将 Sora 关在一个非常有限的访问程序后面的原因。相关文章:OpenAI 推出文本到视频人工智能模型 SoraOpenAI首个视频生成模型发布能生成长达1分钟的高清视频 ... PC版：手机版：

人工智能公司 OpenAI 向好莱坞推荐视频生成技术Sora

人工智能公司 OpenAI 向好莱坞推荐视频生成技术Sora 人工智能公司 OpenAI 在好莱坞发起了魅力攻势，与派拉蒙、环球和华纳兄弟探索等主要电影公司举行了会议，展示其视频生成技术 Sora，并缓解对人工智能模型将损害电影行业的担忧。据多位知情人士透露，首席执行官萨姆•奥尔特曼和首席运营官布拉德•莱特卡普在最近几天举行的会议上向电影行业巨头的高管们做了介绍。奥尔特曼和莱特卡普展示了 Sora 一个新的生成式人工智能模型，能够根据简单的文字提示生成细节栩栩如生的视频。

微软计划将 OpenAI 的 Sora 视频生成模型整合进 Copilot

微软计划将 OpenAI 的 Sora 视频生成模型整合进 Copilot 微软广告和网络服务部门 CEO Mikhail Parakhin 近日在推特与网友互动时表示，OpenAI 开发的视频生成器 Sora 将最终与 Copilot 集成，但需要一些时间。将这两款工具整合在一起有可能为开发人员创造一个强大的利器，让他们能够在工作中利用这两个 AI 模型的强大功能。考虑到 Sora 几天前才刚刚公开测试，还需要一段时间才能在 Copilot 中使用。虽然 Parakhin 的并未提供 Sora 与 Copilot 集成的具体时间表，不过他的回复表明微软最终致力于实现这一目标。来源，频道：@kejiqu 群组：@kejiquchat

终于有普通人可以立刻使用的类 Sora 视频生成工具了！#ai# #sora#

终于有普通人可以立刻使用的类 Sora 视频生成工具了！#ai视频# #sora# 海外产品 viva 发布了首个开放给全部用户使用的 Sora 同架构视频生成模型，而且现阶段免费。支持文本生成视频、图片生成视频以及 4K 分辨率放大功能，另外也支持提示词的自动优化。文生视频单次可以生成一条 5 秒的视频，图生视频是 4 秒视频我测试了一下应该是目前运动幅度最大的视频生成模型，同时图像分辨率也是现在可以用的视频生成产品中最大的。文生视频的效果比图生视频要更好，同时如果要是用的话建议把运动幅度调到 20 左右比较合适。 viva 优势领域就是可以生成比较好的竖屏视频，目前很多视频模型的演示都是横屏视频，竖屏的表现并不好，但是短视频又是视频内容的大头，所以竖屏视频的生成质量是个很重要的指标。但是一致性有一部分测试中保持的不是很好，同时没有表现出 Sora 那样强大的物理特性模拟以及 3D 一致性。跟谷歌刚发布的 Veo 模型对比来看在写实内容上其实以及差不多了。下面是 viva 的视频演示，15 秒开始有相同的提示词跟谷歌刚发布的 Veo 模型的对比。这里体验 viva：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人