OpenAI 发布文生视频模型 Sora

OpenAI 发布文生视频模型 Sora 2月16日凌晨，OpenAI再次扔出一枚深水炸弹，发布了首个文生视频模型。Sora可以直接输出长达60秒的视频，并且包含高度细致的背景、复杂的多角度镜头，以及富有情感的多个角色。一位YouTube博主Paddy Galloway发表了对Sora的感想，他表示内容创作行业已经永远的改变了，并且毫不夸张。“我进入YouTube世界已经15年时间，但OpenAI刚刚的展示让我无言…动画师/3D艺术家们有麻烦了，素材网站将变得无关紧要，任何人都可以无壁垒获得难以置信的产品，内容背后的‘想法’和故事将变得更加重要。” 但Sora模型当前也存在弱点。OpenAI称它可能难以准确模拟复杂场景的物理原理，并且可能无法理解因果关系。例如，一个人可能咬了一口饼干后，饼干会没有咬痕，玻璃破碎的物理过程可能也无法被准确呈现。频道：@kejiqu 群组：@kejiquchat

在Telegram中查看

相关推荐

OpenAI 推出文本到视频人工智能模型 Sora

OpenAI 推出文本到视频人工智能模型 Sora 根据 OpenAI 的介绍博文，Sora 能够创建"具有多个角色、特定运动类型以及主体和背景准确细节的复杂场景"。该公司还指出，该模型能够理解物体"在物理世界中的存在方式"，还能"准确解释道具并生成表达生动情感的引人注目的角色"。该模型还能根据静态图像生成视频，以及在现有视频中填充缺失的帧或扩展视频。OpenAI 的博文中包含的 Sora 生成的演示包括淘金热时期加利福尼亚州的空中场景、从东京火车内部拍摄的视频等。许多演示都有人工智能的痕迹比如在一段博物馆的视频中，地板疑似在移动。OpenAI 表示，该模型"可能难以准确模拟复杂场景的物理现象"，但总体而言，演示结果令人印象深刻。几年前，像 Midjourney 这样的文本到图像生成器在模型将文字转化为图像的能力方面处于领先地位。但最近，视频技术开始飞速进步：Runway 和 Pika 等公司都展示了自己令人印象深刻的文字转视频模型，而Google的 Lumiere 也将成为 OpenAI 在这一领域的主要竞争对手之一。与 Sora 类似，Lumiere 也为用户提供了文字转换视频的工具，还能让用户通过静态图像创建视频。Sora 目前只对"红队"人员开放，他们负责评估模型的潜在危害和风险。OpenAI 还向一些视觉艺术家、设计师和电影制片人提供访问权限，以获得反馈意见。它指出，现有模型可能无法准确模拟复杂场景的物理现象，也可能无法正确解释某些因果关系。本月早些时候，OpenAI 宣布将在其文本到图像工具 DALL-E 3 中添加水印，但指出这些水印"很容易去除"。与其他人工智能产品一样，OpenAI 将不得不面对人工智能逼真视频被误认为是真实视频的后果。 ... PC版：手机版：

OpenAI 发布介绍 Sora，文本转视频模型

OpenAI 发布介绍 Sora，文本转视频模型 OpenAI 发布介绍 Sora，文本转视频模型。Sora 能够创造出长达 60 秒的视频，展现高度详尽的场景、复杂的摄像机运动，以及多个角色充满活力的情感。了解更多，请访问

OpenAI的Sora视频生成模型也能用来渲染游戏

OpenAI的Sora视频生成模型也能用来渲染视频游戏这篇题为《作为世界模拟器的视频生成模型》（Video generation models as world simulators）的论文由多位 OpenAI 研究人员共同撰写，揭开了 Sora 架构关键方面的神秘面纱例如，Sora 可以生成任意分辨率和长宽比（最高 1080p）的视频。根据论文所述，Sora 能够执行一系列图像和视频编辑任务，从创建循环视频、向前或向后延伸视频到更改现有视频的背景。但最吸引笔者的还是 Sora"模拟数字世界"的能力，OpenAI 的合著者如是说。在一次实验中，OpenAI 将 Sora 放到 Minecraft 上，让它在控制玩家的同时渲染世界及其动态（包括物理）。Sora 在 Minecraft 中控制一名玩家，并渲染视频游戏世界，请注意，颗粒感是由视频到 GIF 的转换工具造成的，而不是 Sora。图片来源：OpenAIOpenAI那么，Sora 是如何做到这一点的呢？正如 NVIDIA 高级研究员 Jim Fan（通过 Quartz）所说，与其说 Sora 是一个创意引擎，不如说它是一个"数据驱动的物理引擎"。它不仅能生成单张照片或视频，还能确定环境中每个物体的物理特性，并根据这些计算结果渲染照片或视频（或交互式 3D 世界，视情况而定）。合著者写道："这些功能表明，继续扩展视频模型是开发物理和数字世界以及其中的物体、动物和人的高能力模拟器的一条大有可为的途径。"现在，Sora在视频游戏领域也有其通常的局限性。该模型无法准确模拟玻璃碎裂等基本互动的物理过程。即使在可以建模的互动中，Sora 也经常出现不一致的情况，例如在渲染一个人吃汉堡时，却无法渲染汉堡上的咬痕。不过，如果我没看错的话，Sora 似乎可以为更逼真（甚至可能是逼真）的程序生成游戏铺平道路。这既令人兴奋，又令人恐惧（考虑到Deepfake的影响）这也许就是为什么 OpenAI 选择暂时将 Sora 关在一个非常有限的访问程序后面的原因。相关文章:OpenAI 推出文本到视频人工智能模型 SoraOpenAI首个视频生成模型发布能生成长达1分钟的高清视频 ... PC版：手机版：

腾讯混元文生图模型开源采用Sora同架构

腾讯混元文生图模型开源采用Sora同架构 5月14日，腾讯宣布旗下混元文生图模型升级并开源，参数量15亿，目前已在平台及上发布，包含模型权重、推理代码、模型算法等完整模型，企业与个人开发者可免费商用。该模型支持文生图功能且可作为视频等多模态视觉生成的基础。随着腾讯混元文生图大模型入局，采用 DiT 架构的大模型玩家再增一名。OpenAI 的视频生成模型 Sora 也采用 DiT 架构。腾讯方面介绍，混元文生图大模型是业内首个中文原生的 DiT 架构文生图模型，综合指标在文生图算法中排名第三。

重磅： Open AI 正式推出文生视频模型 Sora

重磅： Open AI 正式推出文生视频模型 Sora 名为Sora 视频模型突然降临，Open AI 目前提供的情报，所揭示的一些惊人能力： - Sora 根据用户提示可以生成长达一分钟的视频，同时保持视觉质量。（在这部电影预告片的提示词，非常简介：讲述 30 岁的太空人头戴红色羊毛针织摩托车头盔的冒险故事，蓝天、盐碱沙漠、电影风格、35 毫米胶片拍摄、色彩鲜明。） - Sora 能够生成包含多个角色、特定运动类型以及主体和背景准确细节的复杂场景。 - Sora 将理解你。这意味着和Dall·E 3有着类似的体验，它具有非凡的语言理解力。 - Sora 还能理解这些事物在物理世界中是如何存在的；换句话说，Sora 理解关于世界如何通过知识和规律进行表征，这可能是重大突破之一。（Hans注，这并不代表它是完美理解世界） - Sora 还能在单个生成的视频中创建多个镜头，准确地体现角色和视觉风格。 - Sora 是一种采取了Transformer架构的扩散模型，不仅能生成还能延长，让模型一次性预测多帧画面，确保主体一致性。 - 更多官方案例参考安全方面的声明和步骤： Open A 正在与红队人员（错误信息、仇恨内容和偏见等领域的专家）合作，他们将对模型进行对抗性测试。还在开发一些工具来帮助检测误导性内容，例如检测分类器，它可以分辨出视频是由 Sora 生成的。 Open AI相信，从现实世界的使用中学习，是随着时间的推移创建和发布越来越安全的人工智能系统的重要组成部分。 Text 2 Video 的生态位差不多在去年这个时候，Runway 所引爆的 Text 2 Video相关的生态位开启了重构好莱坞的想象空间。不到一年 Sora 的横空出生，其必将带来难以想像的变革力量。这是山峰再一次的快速攀升。从多模态的深远意义来说，我强烈意识到 Open AI 描述的野心：「Sora 是能够理解和模拟现实世界的模型的基础，我们相信这种能力将是实现 AGI 的重要里程碑。」 Invalid media:

OpenAI官宣启动“下一代前沿模型”训练或整合“文生视频”模型Sora

OpenAI官宣启动“下一代前沿模型”训练或整合“文生视频”模型Sora OpenAI在该博客文章中表示，“虽然我们为打造和发布在能力和安全性方面都处于业界领先地位的模型而感到自豪，但在这个重要时刻，我们欢迎围绕这一问题展开激烈的讨论。”公司称，其成立的这个新委员会的目的就是来评估这项“新的前沿模型”可能带来的任何风险。虽然目前外界普遍预计OpenAI所谓的“下一代前沿模型”就是GPT-5，但公司迄今未做过任何官方形式的表态。而根据OpenAI开发者体验主管罗曼·韦（Romain Huet）上周在巴黎的一次演讲，OpenAI下一代模型可能将被命名为“GPT-Next”。不过，也有外媒认为这实际上是Omni-2一个更精致、训练参数更多、更强的GPT-4o增强版。OpenAI称，新成立的“安全与保障委员会”的首要任务“将是在未来90天内评估进一步发展OpenAI的流程和保障措施”。随后，OpenAI将在董事会审查后公开分享“采纳建议”的最新情况。这意味着OpenAI的董事会应该最迟在今年8月26日收到该委员会的建议。如果按照这样的时间表来计算，OpenAI最快可能在今年秋季发布所谓的“下一代前沿模型”。不过，《纽约时报》报道称，AI模型的训练可能需要数月甚至数年时间。训练完成后，AI公司通常还会再花几个月时间来测试该模型，并对其进行微调，之后才能供公众使用。这就意味着，OpenAI的下一代模型可能并不会在90天之后就发布。在最近的国际人工智能首尔峰会期间发布的“安全更新（Security Update）”中，OpenAI也表示，在（其下一代模型）发布前，公司将花更多时间评估新模型的功能，这可以解释为什么没有具体的发布日期。OpenAI并未明确提及训练中模型的名称，但外界第一时间猜测这一“前沿模型”就是GPT-5。此前，OpenAI的基础模型一直遵循着明确的命名顺序，即GPT后以递增数字的形式变化。不过，需要注意的是，本月OpenAI发布的模型却命名为GPT-4o。在当地时间5月22日巴黎举行的VivaTech会议上演示 ChatGPT Voice时，OpenAI开发者体验主管罗曼·韦展示了一张幻灯片，揭示了未来几年人工智能模型的潜在增长趋势和命名，其中并没有GPT-5。罗曼·韦展示了GPT-3时代、GPT-4时代、GPT-Next和“未来的模型”，而“Today（今天）”就处于GPT-4时代和GPT-Next之间。这似乎意味着，OpenAI推出的下一代模型或将命名为GPT-Next，但有外媒认为这实际上是Omni-2一个更精致、训练参数更多、更强的GPT-4o增强版。而且，罗曼·韦在演讲中也表示，在未来几个月或者说今年，人们将看到更多类型的OpenAI模型，而不仅仅是ChatGPT一种模型。迭代趋势预示下一代模型将整合Sora福布斯报道称，OpenAI所谓的“下一代前沿模型”可能会取代其领先的基础模型GPT-4，以及图像生成器、虚拟助手、搜索引擎和旗舰聊天机器人ChatGPT等强大的生成式AI工具。科技媒体ZDNET报道称，按照过去的趋势，外界可以预期“下一代前沿模型”的反应会更加准确，因为它将接受更多数据的训练。模型训练的数据越多，该模型生成连贯、准确内容的能力就越强，从而也能拥有更好地性能。例如，有研究称GPT-3.5是在1750亿个参数上训练的，而GPT-4的训练参数则已经达到1万亿。报道称，如果OpenAI“下一代前沿模型”发布，我们可能会看到该模型在训练参数上更大的飞跃。而回顾OpenAI过往的基础模型，从GPT-3.5到最新的GPT-4o，可以看到，随着模型的升级，产品的迭代已经让其变得更加智能，包括价格、响应速度、上下文长度等等。要知道，GPT-3.5只能输入和输出文本，而到GPT-4 Turbo时，已经可以通过文字和图像的输入以获得文本的输出。GPT-4o更是展示了更强大的能力，不仅能处理文本，还能创建图像内容，并以高度对话化的语音方式回答问题和响应指令。ZDNET报道称，按照OpenAI基础模型这样的迭代趋势，“下一代前沿模型”或将拥有输出视频的能力。今年2月，OpenAI发布了“文生视频”模型Sora，这可能会被整合到“下一代前沿模型”中以输出视频。OpenAI的目标是在超越竞争对手的同时，更快地推进AI技术，同时也安抚那些认为该技术越来越危险、助长虚假信息传播、取代工作岗位甚至威胁人类生存的批评者。虽然OpenAI在周二的博客文章中称，预期其“新前沿模型”将使我们在通往AGI的道路上达到更高的能力水平，这是一种能够理解、学习和执行人类可以执行的任何智力任务的 AI 形式。不过，专家们对 AGI 的可行性以及何时可能实现存在分歧。被誉为 AI 教父的 Geoffrey Hinton 估计，可能需要 20 年才能发展出 AGI。英伟达CEO黄仁勋则预测称，AI会在五年内通过人类测试，AGI将很快到来。 ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人