OpenAI 发布文生视频模型 Sora

OpenAI发布文生视频模型Sora2月16日凌晨，OpenAI再次扔出一枚深水炸弹，发布了首个文生视频模型。Sora可以直接输出长达60秒的视频，并且包含高度细致的背景、复杂的多角度镜头，以及富有情感的多个角色。一位YouTube博主PaddyGalloway发表了对Sora的感想，他表示内容创作行业已经永远的改变了，并且毫不夸张。“我进入YouTube世界已经15年时间，但OpenAI刚刚的展示让我无言…动画师/3D艺术家们有麻烦了，素材网站将变得无关紧要，任何人都可以无壁垒获得难以置信的产品，内容背后的‘想法’和故事将变得更加重要。”但Sora模型当前也存在弱点。OpenAI称它可能难以准确模拟复杂场景的物理原理，并且可能无法理解因果关系。例如，一个人可能咬了一口饼干后，饼干会没有咬痕，玻璃破碎的物理过程可能也无法被准确呈现。频道：@kejiqu群组：@kejiquchat

在Telegram中查看

相关推荐

重磅： Open AI 正式推出文生视频模型 Sora

重磅：OpenAI正式推出文生视频模型Sora名为Sora视频模型突然降临，OpenAI目前提供的情报，所揭示的一些惊人能力：-Sora根据用户提示可以生成长达一分钟的视频，同时保持视觉质量。（在这部电影预告片的提示词，非常简介：讲述30岁的太空人头戴红色羊毛针织摩托车头盔的冒险故事，蓝天、盐碱沙漠、电影风格、35毫米胶片拍摄、色彩鲜明。）-Sora能够生成包含多个角色、特定运动类型以及主体和背景准确细节的复杂场景。-Sora将理解你。这意味着和Dall·E3有着类似的体验，它具有非凡的语言理解力。-Sora还能理解这些事物在物理世界中是如何存在的；换句话说，Sora理解关于世界如何通过知识和规律进行表征，这可能是重大突破之一。（Hans注，这并不代表它是完美理解世界）-Sora还能在单个生成的视频中创建多个镜头，准确地体现角色和视觉风格。-Sora是一种采取了Transformer架构的扩散模型，不仅能生成还能延长，让模型一次性预测多帧画面，确保主体一致性。-更多官方案例参考https://openai.com/sora安全方面的声明和步骤：OpenA正在与红队人员（错误信息、仇恨内容和偏见等领域的专家）合作，他们将对模型进行对抗性测试。还在开发一些工具来帮助检测误导性内容，例如检测分类器，它可以分辨出视频是由Sora生成的。OpenAI相信，从现实世界的使用中学习，是随着时间的推移创建和发布越来越安全的人工智能系统的重要组成部分。Text2Video的生态位差不多在去年这个时候，Runway所引爆的Text2Video相关的生态位开启了重构好莱坞的想象空间。不到一年Sora的横空出生，其必将带来难以想像的变革力量。这是山峰再一次的快速攀升。从多模态的深远意义来说，我强烈意识到OpenAI描述的野心：「Sora是能够理解和模拟现实世界的模型的基础，我们相信这种能力将是实现AGI的重要里程碑。」Invalidmedia:

OpenAI 推出文本到视频人工智能模型 Sora

OpenAI推出文本到视频人工智能模型Sora根据OpenAI的介绍博文，Sora能够创建"具有多个角色、特定运动类型以及主体和背景准确细节的复杂场景"。该公司还指出，该模型能够理解物体"在物理世界中的存在方式"，还能"准确解释道具并生成表达生动情感的引人注目的角色"。该模型还能根据静态图像生成视频，以及在现有视频中填充缺失的帧或扩展视频。OpenAI的博文中包含的Sora生成的演示包括淘金热时期加利福尼亚州的空中场景、从东京火车内部拍摄的视频等。许多演示都有人工智能的痕迹--比如在一段博物馆的视频中，地板疑似在移动。OpenAI表示，该模型"可能难以准确模拟复杂场景的物理现象"，但总体而言，演示结果令人印象深刻。几年前，像Midjourney这样的文本到图像生成器在模型将文字转化为图像的能力方面处于领先地位。但最近，视频技术开始飞速进步：Runway和Pika等公司都展示了自己令人印象深刻的文字转视频模型，而Google的Lumiere也将成为OpenAI在这一领域的主要竞争对手之一。与Sora类似，Lumiere也为用户提供了文字转换视频的工具，还能让用户通过静态图像创建视频。Sora目前只对"红队"人员开放，他们负责评估模型的潜在危害和风险。OpenAI还向一些视觉艺术家、设计师和电影制片人提供访问权限，以获得反馈意见。它指出，现有模型可能无法准确模拟复杂场景的物理现象，也可能无法正确解释某些因果关系。本月早些时候，OpenAI宣布将在其文本到图像工具DALL-E3中添加水印，但指出这些水印"很容易去除"。与其他人工智能产品一样，OpenAI将不得不面对人工智能逼真视频被误认为是真实视频的后果。...PC版：https://www.cnbeta.com.tw/articles/soft/1418385.htm手机版：https://m.cnbeta.com.tw/view/1418385.htm

OpenAI的Sora视频生成模型也能用来渲染游戏

OpenAI的Sora视频生成模型也能用来渲染视频游戏这篇题为《作为世界模拟器的视频生成模型》（Videogenerationmodelsasworldsimulators）的论文由多位OpenAI研究人员共同撰写，揭开了Sora架构关键方面的神秘面纱--例如，Sora可以生成任意分辨率和长宽比（最高1080p）的视频。根据论文所述，Sora能够执行一系列图像和视频编辑任务，从创建循环视频、向前或向后延伸视频到更改现有视频的背景。但最吸引笔者的还是Sora"模拟数字世界"的能力，OpenAI的合著者如是说。在一次实验中，OpenAI将Sora放到Minecraft上，让它在控制玩家的同时渲染世界及其动态（包括物理）。Sora在Minecraft中控制一名玩家，并渲染视频游戏世界，请注意，颗粒感是由视频到GIF的转换工具造成的，而不是Sora。图片来源：OpenAIOpenAI那么，Sora是如何做到这一点的呢？正如NVIDIA高级研究员JimFan（通过Quartz）所说，与其说Sora是一个创意引擎，不如说它是一个"数据驱动的物理引擎"。它不仅能生成单张照片或视频，还能确定环境中每个物体的物理特性，并根据这些计算结果渲染照片或视频（或交互式3D世界，视情况而定）。合著者写道："这些功能表明，继续扩展视频模型是开发物理和数字世界以及其中的物体、动物和人的高能力模拟器的一条大有可为的途径。"现在，Sora在视频游戏领域也有其通常的局限性。该模型无法准确模拟玻璃碎裂等基本互动的物理过程。即使在可以建模的互动中，Sora也经常出现不一致的情况，例如在渲染一个人吃汉堡时，却无法渲染汉堡上的咬痕。不过，如果我没看错的话，Sora似乎可以为更逼真（甚至可能是逼真）的程序生成游戏铺平道路。这既令人兴奋，又令人恐惧（考虑到Deepfake的影响）--这也许就是为什么OpenAI选择暂时将Sora关在一个非常有限的访问程序后面的原因。相关文章:OpenAI推出文本到视频人工智能模型SoraOpenAI首个视频生成模型发布能生成长达1分钟的高清视频...PC版：https://www.cnbeta.com.tw/articles/soft/1418461.htm手机版：https://m.cnbeta.com.tw/view/1418461.htm

中信证券：文生视频 Sora 等模型发布有望继续推动算力与网络需求升级

中信证券：文生视频Sora等模型发布有望继续推动算力与网络需求升级中信证券研报表示，2024年2月16日凌晨，OpenAI发布文生视频多模态模型Sora，其生成视频demo表现效果十分惊艳，引发广泛关注。中信证券认为若Sora成为视频创作领域的超级应用，将带来巨大的网络设备升级需求。同时谷歌最新多模态大模型Gemini1.5以及英伟达本地聊天机器人ChatwithRTX也在近期陆续发布。AI发展趋势已经愈发明确，AI产业成熟的商业模式与“收入—资本开支”的良性循环亦在逐步形成。这有望缓解市场对于光模块等算力设备投资持续性的担忧，从而打开龙头厂商估值空间。

腾讯混元文生图模型开源采用Sora同架构

腾讯混元文生图模型开源采用Sora同架构5月14日，腾讯宣布旗下混元文生图模型升级并开源，参数量15亿，目前已在平台及上发布，包含模型权重、推理代码、模型算法等完整模型，企业与个人开发者可免费商用。该模型支持文生图功能且可作为视频等多模态视觉生成的基础。随着腾讯混元文生图大模型入局，采用DiT架构的大模型玩家再增一名。OpenAI的视频生成模型Sora也采用DiT架构。腾讯方面介绍，混元文生图大模型是业内首个中文原生的DiT架构文生图模型，综合指标在文生图算法中排名第三。——

OpenAI官宣启动“下一代前沿模型”训练或整合“文生视频”模型Sora

OpenAI官宣启动“下一代前沿模型”训练或整合“文生视频”模型SoraOpenAI在该博客文章中表示，“虽然我们为打造和发布在能力和安全性方面都处于业界领先地位的模型而感到自豪，但在这个重要时刻，我们欢迎围绕这一问题展开激烈的讨论。”公司称，其成立的这个新委员会的目的就是来评估这项“新的前沿模型”可能带来的任何风险。虽然目前外界普遍预计OpenAI所谓的“下一代前沿模型”就是GPT-5，但公司迄今未做过任何官方形式的表态。而根据OpenAI开发者体验主管罗曼·韦（RomainHuet）上周在巴黎的一次演讲，OpenAI下一代模型可能将被命名为“GPT-Next”。不过，也有外媒认为这实际上是Omni-2——一个更精致、训练参数更多、更强的GPT-4o增强版。OpenAI称，新成立的“安全与保障委员会”的首要任务“将是在未来90天内评估进一步发展OpenAI的流程和保障措施”。随后，OpenAI将在董事会审查后公开分享“采纳建议”的最新情况。这意味着OpenAI的董事会应该最迟在今年8月26日收到该委员会的建议。如果按照这样的时间表来计算，OpenAI最快可能在今年秋季发布所谓的“下一代前沿模型”。不过，《纽约时报》报道称，AI模型的训练可能需要数月甚至数年时间。训练完成后，AI公司通常还会再花几个月时间来测试该模型，并对其进行微调，之后才能供公众使用。这就意味着，OpenAI的下一代模型可能并不会在90天之后就发布。在最近的国际人工智能首尔峰会期间发布的“安全更新（SecurityUpdate）”中，OpenAI也表示，在（其下一代模型）发布前，公司将花更多时间评估新模型的功能，这可以解释为什么没有具体的发布日期。OpenAI并未明确提及训练中模型的名称，但外界第一时间猜测这一“前沿模型”就是GPT-5。此前，OpenAI的基础模型一直遵循着明确的命名顺序，即GPT后以递增数字的形式变化。不过，需要注意的是，本月OpenAI发布的模型却命名为GPT-4o。在当地时间5月22日巴黎举行的VivaTech会议上演示ChatGPTVoice时，OpenAI开发者体验主管罗曼·韦展示了一张幻灯片，揭示了未来几年人工智能模型的潜在增长趋势和命名，其中并没有GPT-5。罗曼·韦展示了GPT-3时代、GPT-4时代、GPT-Next和“未来的模型”，而“Today（今天）”就处于GPT-4时代和GPT-Next之间。这似乎意味着，OpenAI推出的下一代模型或将命名为GPT-Next，但有外媒认为这实际上是Omni-2——一个更精致、训练参数更多、更强的GPT-4o增强版。而且，罗曼·韦在演讲中也表示，在未来几个月或者说今年，人们将看到更多类型的OpenAI模型，而不仅仅是ChatGPT一种模型。迭代趋势预示下一代模型将整合Sora福布斯报道称，OpenAI所谓的“下一代前沿模型”可能会取代其领先的基础模型GPT-4，以及图像生成器、虚拟助手、搜索引擎和旗舰聊天机器人ChatGPT等强大的生成式AI工具。科技媒体ZDNET报道称，按照过去的趋势，外界可以预期“下一代前沿模型”的反应会更加准确，因为它将接受更多数据的训练。模型训练的数据越多，该模型生成连贯、准确内容的能力就越强，从而也能拥有更好地性能。例如，有研究称GPT-3.5是在1750亿个参数上训练的，而GPT-4的训练参数则已经达到1万亿。报道称，如果OpenAI“下一代前沿模型”发布，我们可能会看到该模型在训练参数上更大的飞跃。而回顾OpenAI过往的基础模型，从GPT-3.5到最新的GPT-4o，可以看到，随着模型的升级，产品的迭代已经让其变得更加智能，包括价格、响应速度、上下文长度等等。要知道，GPT-3.5只能输入和输出文本，而到GPT-4Turbo时，已经可以通过文字和图像的输入以获得文本的输出。GPT-4o更是展示了更强大的能力，不仅能处理文本，还能创建图像内容，并以高度对话化的语音方式回答问题和响应指令。ZDNET报道称，按照OpenAI基础模型这样的迭代趋势，“下一代前沿模型”或将拥有输出视频的能力。今年2月，OpenAI发布了“文生视频”模型Sora，这可能会被整合到“下一代前沿模型”中以输出视频。OpenAI的目标是在超越竞争对手的同时，更快地推进AI技术，同时也安抚那些认为该技术越来越危险、助长虚假信息传播、取代工作岗位甚至威胁人类生存的批评者。虽然OpenAI在周二的博客文章中称，预期其“新前沿模型”将使我们在通往AGI的道路上达到更高的能力水平，这是一种能够理解、学习和执行人类可以执行的任何智力任务的AI形式。不过，专家们对AGI的可行性以及何时可能实现存在分歧。被誉为AI教父的GeoffreyHinton估计，可能需要20年才能发展出AGI。英伟达CEO黄仁勋则预测称，AI会在五年内通过人类测试，AGI将很快到来。...PC版：https://www.cnbeta.com.tw/articles/soft/1432739.htm手机版：https://m.cnbeta.com.tw/view/1432739.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人