OPENAI发布从文本创建视频的AI模型

OpenAI 发布介绍 Sora，文本转视频模型

OpenAI 发布介绍 Sora，文本转视频模型 OpenAI 发布介绍 Sora，文本转视频模型。Sora 能够创造出长达 60 秒的视频，展现高度详尽的场景、复杂的摄像机运动，以及多个角色充满活力的情感。了解更多，请访问

【三次元的文本到图像AI成了：单GPU不到一分钟出货】OpenAI 开源的 Point-E 可以基于定文本提示创建3D模型。通过

【三次元的文本到图像AI成了：单GPU不到一分钟出货】OpenAI 开源的 Point-E 可以基于定文本提示创建3D模型。通过一块Nvidia V100GPU，Point-E可以在一至两分钟内生成3D模型。 #抽屉IT

OpenAI的Sora AI视频应用将于2024年公开发布

OpenAI的Sora AI视频应用将于2024年公开发布到目前为止，OpenAI 只允许少数受邀用户试用 Sora，部分原因是公司希望确保使用的安全性。不过，OpenAI 的首席技术官米拉-穆拉提（Mira Murati）在接受《华尔街日报》采访时表示，目前的计划是在 2024 年晚些时候向公众推出 OpenAI。事实上，她说"可能还要几个月"才能公开发布 Sora。人们对 Sora 以及所有基于文本提示的人工智能工具的担忧之一，是其大型语言模型的数据来源。就 Sora 而言，Murati 说它使用了 OpenAI 从 Shutterstock 获得授权的内容。不过，她拒绝透露更多数据来源，称这些数据来自"公开或授权数据"。目前，Sora 只能创建无声视频，而且在创建过程中不能对这些剪辑进行编辑。穆拉提确实说过，OpenAI 正在努力为 Sora 的剪辑添加音频和编辑工具。目前，还没有消息表明 OpenAI 将向公众收取多少使用 Sora 的费用。据 Murati 称，OpenAI 希望将 Sora 的定价与其 DALL-E 3 AI 艺术创作者的定价类似。不过，米拉补充说，Sora 在功能和支持方面对 OpenAI 来说"要昂贵得多"。当然，OpenAI 最大的财务和开发合作伙伴是微软，微软已将其 Chat-GPT 和 DALL-E 模型纳入其 Copilot 服务。就在 Sora 发布之后，有人问微软 X（前 Twitter）广告和网络服务主管 Mikhail Parakhin，Sora 是否也会加入 Copilot。帕拉金回答说："最终会的，但这需要时间"。 ... PC版：手机版：

OpenAI 推出文本到视频人工智能模型 Sora

OpenAI 推出文本到视频人工智能模型 Sora 根据 OpenAI 的介绍博文，Sora 能够创建"具有多个角色、特定运动类型以及主体和背景准确细节的复杂场景"。该公司还指出，该模型能够理解物体"在物理世界中的存在方式"，还能"准确解释道具并生成表达生动情感的引人注目的角色"。该模型还能根据静态图像生成视频，以及在现有视频中填充缺失的帧或扩展视频。OpenAI 的博文中包含的 Sora 生成的演示包括淘金热时期加利福尼亚州的空中场景、从东京火车内部拍摄的视频等。许多演示都有人工智能的痕迹比如在一段博物馆的视频中，地板疑似在移动。OpenAI 表示，该模型"可能难以准确模拟复杂场景的物理现象"，但总体而言，演示结果令人印象深刻。几年前，像 Midjourney 这样的文本到图像生成器在模型将文字转化为图像的能力方面处于领先地位。但最近，视频技术开始飞速进步：Runway 和 Pika 等公司都展示了自己令人印象深刻的文字转视频模型，而Google的 Lumiere 也将成为 OpenAI 在这一领域的主要竞争对手之一。与 Sora 类似，Lumiere 也为用户提供了文字转换视频的工具，还能让用户通过静态图像创建视频。Sora 目前只对"红队"人员开放，他们负责评估模型的潜在危害和风险。OpenAI 还向一些视觉艺术家、设计师和电影制片人提供访问权限，以获得反馈意见。它指出，现有模型可能无法准确模拟复杂场景的物理现象，也可能无法正确解释某些因果关系。本月早些时候，OpenAI 宣布将在其文本到图像工具 DALL-E 3 中添加水印，但指出这些水印"很容易去除"。与其他人工智能产品一样，OpenAI 将不得不面对人工智能逼真视频被误认为是真实视频的后果。 ... PC版：手机版：

OpenAI发布Shap・E模型：通过输入文本创建逼真3D模型

OpenAI发布Shap・E模型：通过输入文本创建逼真3D模型 OpenAI最近发布了名为Shap・E的模型，可以通过输入文本创建逼真且多样化的3D模型。这种模型与现有的只能输出点云或体素的模型不同，可以生成高质量的3D资产，具有细粒度纹理和复杂形状。 Shap・E不仅仅是一个3D模型生成器，而且可以直接生成隐式函数的参数，这些参数可以用于渲染纹理网格和神经辐射场(NeRF)。NeRF是一种具有隐式场景表示的新型视场合成技术，在计算机视觉领域引起了广泛的关注。它可以用于视图合成和三维重建，广泛应用于机器人、城市地图、自主导航、虚拟现实/增强现实等领域。值得注意的是，Shap・E模型还可以生成神经辐射场，这是一种新型的三维场景表示方法。通过这种方法，Shap・E可以呈现更加真实的光照效果和材质感，让3D图像更加生动、逼真。未来，这种模型可能会被广泛应用于游戏、电影、建筑等领域，为人们带来更加精彩、逼真的视觉体验。#AI 来源，来自：雷锋频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

奥尔特曼选取网友提示词用OpenAI新款大模型Sora生成视频

奥尔特曼选取网友提示词用OpenAI新款大模型Sora生成视频一位时髦女士漫步在东京街头，周围是温暖闪烁的霓虹灯和动感的城市标志。一名年约三十的宇航员戴着红色针织摩托头盔展开冒险之旅，电影预告片呈现其穿梭于蓝天白云与盐湖沙漠之间的精彩瞬间，独特的电影风格、采用35毫米胶片拍摄，色彩鲜艳。竖屏超近景视角下，这只蜥蜴细节拉满：OpenAI表示，公司正在教授人工智能理解和模拟运动中的物理世界，目标是训练出能够帮助人们解决需要与现实世界互动的问题的模型。在此，隆重推出文本到视频模型Sora。Sora可以生成长达一分钟的视频，同时保证视觉质量和符合用户提示的要求。OpenAI创始人兼CEOSam Altman（奥尔特曼）太会玩了，让网友评论回复Prompt（大语言模型中的提示词），他选一些用Sora生成视频。截至发稿，奥尔特曼连发多条根据网友提示词生成的视频，包括不同动物在海上进行自行车比赛、发布自制面疙瘩烹饪教学视频的祖母、两只金毛犬在山顶做播客、日落时分火星上进行的一场无人机竞赛等。但这些视频时长为9秒至17秒不等。技术层面，Sora采用扩散模型（diffusion probabilistic models）技术，基于Transformer架构，但为了解决Transformer架构核心组件注意力机制的长文本、高分辨率图像处理等问题，扩散模型用可扩展性更强的状态空间模型（SSM）主干替代了传统架构中的注意力机制，可以使用更少的算力，生成高分辨率图像。此前Midjourney与Stable Diffusion的图像与视频生成器同样基于扩散模型。同时，Sora也存在一定的技术不成熟之处。OpenAI表示，Sora可能难以准确模拟复杂场景的物理原理，可能无法理解因果关系，可能混淆提示的空间细节，可能难以精确描述随着时间推移发生的事件，如遵循特定的相机轨迹等。根据OpenAI关于Sora的技术报告《Video generation models as world simulators》（以下简称报告），跟大语言模型一样，Sora也有涌现的模拟能力。OpenAI方面在技术报告中表示，并未将Sora单纯视作视频模型，而是将视频生成模型作为“世界模拟器”，不仅可以在不同设备的原生宽高比直接创建内容，而且展示了一些有趣的模拟能力，如3D一致性、长期一致性和对象持久性等。目前Sora能够生成一分钟的高保真视频，OpenAI认为扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。报告指出，OpenAI研究了在视频数据上进行大规模训练的生成模型。具体而言，联合训练了文本条件扩散模型，该模型可处理不同持续时间、分辨率和长宽比的视频和图像。OpenAI利用了一种基于时空补丁的视频和图像潜在代码的变压器架构。最大的模型Sora能够生成一分钟的高保真视频。结果表明，扩展视频生成模型是构建通用物理世界模拟器的有前途的途径。报告重点介绍了OpenAI将各类型视觉数据转化为统一表示的方法，这种方法能够对生成模型进行大规模训练，并对Sora的能力与局限进行定性评估。先前的大量研究已经探索了使用多种方法对视频数据进行生成建模，包括循环网络、生成对抗网络、自回归转换器和扩散模型。这些研究往往只关注于狭窄类别的视觉数据、较短的视频或固定大小的视频。而Sora是一个通用的视觉数据模型，它能够生成跨越不同时长、纵横比和分辨率的视频和图像，甚至能够生成长达一分钟的高清视频。OpenAI从大型语言模型中汲取灵感，这些模型通过训练互联网规模的数据获得通用能力。LLM范式的成功在一定程度上得益于令牌的使用，这些令牌巧妙地统一了文本的不同模式代码、数学和各种自然语言。在这项工作中，OpenAI考虑视觉数据的生成模型如何继承这些优势。虽然LLM有文本令牌，但Sora有视觉补丁。之前已经证明，补丁是视觉数据模型的有效表示。补丁是一种高度可扩展且有效的表示，可用于在多种类型的视频和图像上训练生成模型。Sora支持采样多种分辨率视频，包括1920x1080p的宽屏视频、1080x1920的竖屏视频以及介于两者之间的所有分辨率。这使得Sora能够直接以原生纵横比为不同的设备创建内容。同时，它还允许在生成全分辨率内容之前，使用相同的模型快速制作较小尺寸的内容原型。 ... PC版：手机版：