OpenAI CTO:Sora今年将发布 会添加语音功能

OpenAI CTO:Sora今年将发布 会添加语音功能 以下为翻译全文:某个清晨醒来时,你是否曾幻想过一头公牛在精致的瓷器店中悠然自得地行走的场景?要实现这一奇幻景象,你有三种途径:A)联系当地的动物驯养师以及知名家居品牌Crate & Barrel;B)雇请顶尖的好莱坞动画制作人;C)使用神奇的AI工具Sora,简单输入指令即可。欢迎进入人工智能的下一个“魔法世界”。在这里,你的语言能够化作逼真、流畅且细腻的视频画面。OpenAI计划在今年晚些时候向大众推出其文本到视频的转换工具Sora。尽管正式发布尚需时日,但OpenAI已经向我们揭示了这款工具的惊人潜力:仅需精心设计的文本指令,便可创造出几乎足以替代许多视频制作专业人员的作品。《华尔街日报》专栏作家乔安娜·斯特恩(Joanna Stern)向该公司提交了几条由她自己编写的提示,比如一条美人鱼和她的螃蟹伙伴评测智能手机,或是一头公牛在精致的瓷器店内自由漫步。斯特恩随后亲身体验了Sora的神奇之处,她利用这款工具制作了一段模拟对OpenAI首席技术官穆拉蒂进行虚拟视频采访的片段,两人深入剖析了这些有趣的问题,并对该技术的潜在问题进行了探讨。OpenAI在上个月首次展示了用其生成式人工智能工具制作的视频预览,整个互联网为之沸腾。与之前那些断断续续、分辨率低下的人工智能视频技术相比,Sora生成的内容无疑是一场视觉盛宴,堪比高品质的自然纪录片或大制作电影。与之前的人工智能技术相似,Sora首先让我们对其能力感到惊叹,随即又担忧其对社会的影响。面对斯特恩的担忧,穆拉蒂向她保证,OpenAI在发布这一强大工具时将采取慎重的步骤。但这并不意味着一切都将无忧无虑。这些超逼真视频真的是Sora生成的吗?斯特恩对Sora生成的视频感到深深震撼:从无人机视角拍摄的意大利阿马尔菲海岸的壮观景色,到手持自拍杆的柯基犬,再到冲浪板上活泼的动画水獭,这些画面无一不展示了Sora在创意和细节处理上的强大能力。她进一步挑战Sora,要求它生成更接近日常生活的场景:“两名30多岁、棕发的职业女性在一个明亮的演播室里坐下接受新闻采访。”Sora生成的视频中,两位女性的嘴唇和头发动作自然流畅,皮夹克的细节也清晰可见。穆拉蒂透露,这段20秒长、720P分辨率的视频仅用了几分钟就完成了生成,尽管目前还未加入声音。但她承诺,OpenAI正在计划为Sora增添语音功能。为了对比Sora与其他工具的区别,斯特恩也在另一个AI视频生成器Runway上输入了相同的提示。然而,得到的结果大相径庭,Runway生成的画面是两个模糊、幽灵般的女性形象,它们看起来像是直接从恶梦中走出来的,令人毛骨悚然。那么,Sora究竟是如何实现这一神奇转换的呢?尽管解释其内部工作原理可能比解释美人鱼的进化还要复杂,但简单来说,Sora背后的AI模型通过分析大量视频数据,学会了识别和理解各种物体与动作。输入文本提示后,模型能够迅速勾勒出整个场景的基本轮廓,并逐帧添加细节。行业观察人士和竞争对手,包括Runway的首席执行官,都认为OpenAI的这些显著成就归功于其巨大的计算资源和庞大的训练数据量。但OpenAI最近也面临着版权侵犯的指控,因未经授权使用大量在线内容训练其ChatGPT模型。当被问及OpenAI为训练Sora使用了哪些数据时,穆拉蒂表示:“我们主要使用了公开可获取的数据及已授权数据。”。当被进一步追问这些数据是否包括YouTube、Instagram和Facebook上的视频时,穆拉蒂表示她并不清楚具体细节,但后来确认,已授权的材料确实包含了知名版权图片网站Shutterstock上的内容。人工智能模型对普通用户来说往往是个神秘的黑匣子。我们看到的是输入和输出,而中间的处理过程则不得而知。因此,我们可能永远无法完全理解为何生成的内容展现出某些特定的风格或特征。例如,斯特恩提到的那条美人鱼身旁的甲壳类伙伴留着类似《海绵宝宝》中蟹老板的胡须,这是否是模型的创新还是某种偶然?穆拉蒂还告诉斯特恩,当前Sora生成视频的成本远高于该公司的图像生成器Dall-E。但她承诺,在Sora正式向公众发布前,团队将对其进行优化,以降低计算资源消耗。如何识别人工智能生成视频?在当前的早期阶段,人工智能生成的内容中还存在一些明显的瑕疵。例如,在Sora生成的采访视频中,一位浅发色女子的一只手似乎多出了五根手指。对此,穆拉蒂解释道:“准确再现手部运动真的很难。”在另一次测试中,斯特恩期望看到一个机器人从电影制片人手中夺走摄像机的场景。但Sora生成的是一位人类电影制片人突变成机器人,场面显得突兀且不自然。更有甚者,背景中的黄色出租车也不知怎的变成了银色轿车。穆拉蒂承认模型“在维持连贯性方面表现尚可,但并不完美”。这引出了一个深刻的议题:当这些缺陷得到修正,人工智能生成的视频愈发逼真时,我们如何区分真实与人工智能生成的视频?Sora生成的每个视频下方都会有一个水印。穆拉蒂解释说,最终这些视频还将包含元数据,以标示其生成方式和来源。此外,OpenAI设有一个名为“Sora红队”的安全测试小组。该团队的职责是提供各种提示,探索潜在的漏洞、偏见和其他可能的有害结果。穆拉蒂说:“这就是我们目前还没有广泛部署这些系统的原因。我们需要先弄清楚这些问题,然后才能放心地将其推向市场。”就Sora的提示词政策而言,穆拉蒂透露,它可能借鉴OpenAI的另一工具Dall-E的做法。例如,为了防止滥用和侵犯隐私,用户将无法使用Sora来生成公众人物的形象。当斯特恩试图输入“在任美国总统的电视新闻画面”时,Sora拒绝了这一请求。斯特恩也尝试让Sora生成“在东欧小镇上行走的士兵”的视频,但也遭到了拒绝。对于裸露等敏感内容的提示,穆拉蒂表示OpenAI正在与艺术家和专家紧密合作,共同探讨如何在不阻碍创意表现的同时,设立合理的“护栏和限制”。将与好莱坞合作随技术发展,像Sora这样的AI工具将变得更强大、更精细。这种进步可能会改变传统的工作方式,如无人机操作员或插画家的角色,引起好莱坞既期待又忧虑的反响。演员、电影制片人和工作室老板泰勒·佩里(Tyler Perry)表示,看到Sora的潜力后,他宣布暂停耗资8亿美元的工作室扩建计划。他认为这项技术能够削减布景和外景拍摄的成本,但同时也对电影行业和演员的未来抱有担忧。代表好莱坞和全美各地动画艺术家的动画协会主席珍妮特·莫雷诺·金(Jeanette Moreno King)也称,尽管艺术创作决策仍需人类参与和判断力,未来却是充满不确定性的迷雾。爱德华·萨奇(EdwardSaatchi)及其人工智能视频工作室Fable正梦想打造一个AI版Netflix:仅需输入一段文本提示,便可呈现完整的电视剧集。对于Sora对视频制作行业的潜在影响,穆拉蒂重申了OpenAI采取的缓步审慎策略。她表示,OpenAI正在与行业内部人士合作,进行早期的测试和反馈征集,希望全球的电影制作者和创作者能加入这一探索过程,共同促进电影产业的发展。如果将OpenAI比作一开始提到的那头在瓷器店里自由漫步的公牛,那么它目前可能需要小心行事。但最终,它可能不可避免地将带来一些破坏。 ... PC版: 手机版:

相关推荐

封面图片

OpenAI CTO 表示她不知道 Sora 的训练数据来自哪里

OpenAI CTO 表示她不知道 Sora 的训练数据来自哪里 人工智能公司 OpenAI 的首席技术官米拉·穆拉蒂本周与《华尔街日报》的乔安娜·斯特恩坐下来讨论了该公司即将推出的视频生成人工智能 Sora。10分钟的采访进行到一半时,斯特恩直截了当地问穆拉蒂新模型的训练数据是从哪里收集的。但穆拉蒂目光闪烁以模糊的公司语言回答了这个问题。“我们使用了公开数据和许可数据,”穆拉蒂回答了这个极其简单的问题。斯特恩用更具体的来源示例反驳道:“那么,YouTube 上的视频?”“你知道,如果它们是公开可用的公开可用,”首席技术官回答道,“但我不确定。我对此没有信心。”随后,斯特恩询问了 OpenAI 与 Shutterstock 的数据训练合作情况,询问是否被纳入了 Sora 的训练材料中。“关于使用数据的细节,我是不会详细说的,”穆拉蒂继续说道。“但我们用的数据肯定是公开的,或者许可使用的。”

封面图片

YouTube CEO表示OpenAI用其视频训练Sora将违反平台服务条款

YouTube CEO表示OpenAI用其视频训练Sora将违反平台服务条款 "从创作者的角度来看,当创作者将他们的辛勤劳动上传到我们的平台时,他们有一定的期望,"莫汉周四在接受彭博原创节目主持人艾米莉-张(Emily Chang)的采访时说,"其中一个期望就是要遵守服务条款。 它不允许下载文字稿或视频片段等内容,这明显违反了我们的服务条款。这些就是我们平台上内容的行事规则。"关于 OpenAI 使用什么材料来训练 ChatGPT 和 DALL-E 等流行内容创作产品的人工智能模型,公众一直争论不休。Sora 和其他生成式人工智能工具的工作原理是从网络上吸取各种内容,并将这些数据作为工具生成新内容(包括视频、照片、叙述性文字等)的基础。随着OpenAI、Google等公司竞相开发更强大的人工智能,它们正寻求尽可能多的内容来训练其人工智能模型,以获得更高质量的结果。Google和YouTube是Alphabet公司的子公司。微软公司支持的 OpenAI 没有立即回应置评请求。OpenAI 首席技术官米拉-穆拉提(Mira Murati)上个月在接受《华尔街日报》采访时说,她不确定 Sora 是否是在 YouTube、Facebook 和 Instagram 的用户生成视频上训练出来的。本周,《华尔街日报》援引熟悉此事的人士的话报道称,OpenAI 已经讨论过在转录 YouTube 公开视频的基础上训练其下一代大型语言模型 GPT-5。莫汉说,Google在决定是否使用平台上的视频来训练公司自己的强大人工智能模型"双子座"(Gemini)之前,会遵守 YouTube 与创作者签订的个人合同。"很多创作者在我们的平台上都有不同类型的内容授权合同。他说,虽然"YouTube语料库中的部分内容可能会被用于"训练Gemini等模型,但Google和YouTube会确保将这些视频用作Google人工智能的训练数据"符合该创作者事先签署的服务条款或合同"。 ... PC版: 手机版:

封面图片

OpenAI首席执行官奥特曼称电影将变成视频游戏 马斯克回应

OpenAI首席执行官奥特曼称电影将变成视频游戏 马斯克回应 据看看新闻,近日,美国开放人工智能研究中心(OpenAI)首席技术官穆拉蒂接受《华尔街日报》采访时,被问及OpenAI使用了什么数据训练视频生成模型Sora。穆拉蒂表示用的是“公开可用的数据”,随后被追问是否使用了YouTube、脸书、ins等社交平台的数据,她并未明确回答,反复强调使用的是“公开可用的数据”,拒绝给出更多细节。去年12月,《纽约时报》指控OpenAI及其投资方微软公司未经授权使用《纽约时报》文章训练ChatGPT等聊天机器人。有媒体报道称,还有多家版权所有方也对一些研发人工智能的企业提起诉讼,控告这些企业在人工智能训练中滥用版权作品。围绕人工智能训练是否符合版权法所规定的“合理使用”这一关键问题,美国相关法院尚未作出裁决。 ... PC版: 手机版:

封面图片

OpenAI的Sora AI视频应用将于2024年公开发布

OpenAI的Sora AI视频应用将于2024年公开发布 到目前为止,OpenAI 只允许少数受邀用户试用 Sora,部分原因是公司希望确保使用的安全性。不过,OpenAI 的首席技术官米拉-穆拉提(Mira Murati)在接受《华尔街日报》采访时表示,目前的计划是在 2024 年晚些时候向公众推出 OpenAI。事实上,她说"可能还要几个月"才能公开发布 Sora。人们对 Sora 以及所有基于文本提示的人工智能工具的担忧之一,是其大型语言模型的数据来源。就 Sora 而言,Murati 说它使用了 OpenAI 从 Shutterstock 获得授权的内容。不过,她拒绝透露更多数据来源,称这些数据来自"公开或授权数据"。目前,Sora 只能创建无声视频,而且在创建过程中不能对这些剪辑进行编辑。穆拉提确实说过,OpenAI 正在努力为 Sora 的剪辑添加音频和编辑工具。目前,还没有消息表明 OpenAI 将向公众收取多少使用 Sora 的费用。据 Murati 称,OpenAI 希望将 Sora 的定价与其 DALL-E 3 AI 艺术创作者的定价类似。不过,米拉补充说,Sora 在功能和支持方面对 OpenAI 来说"要昂贵得多"。当然,OpenAI 最大的财务和开发合作伙伴是微软,微软已将其 Chat-GPT 和 DALL-E 模型纳入其 Copilot 服务。就在 Sora 发布之后,有人问微软 X(前 Twitter)广告和网络服务主管 Mikhail Parakhin,Sora 是否也会加入 Copilot。帕拉金回答说:"最终会的,但这需要时间"。 ... PC版: 手机版:

封面图片

OpenAI 推出文本到视频人工智能模型 Sora

OpenAI 推出文本到视频人工智能模型 Sora 根据 OpenAI 的介绍博文,Sora 能够创建"具有多个角色、特定运动类型以及主体和背景准确细节的复杂场景"。该公司还指出,该模型能够理解物体"在物理世界中的存在方式",还能"准确解释道具并生成表达生动情感的引人注目的角色"。该模型还能根据静态图像生成视频,以及在现有视频中填充缺失的帧或扩展视频。OpenAI 的博文中包含的 Sora 生成的演示包括淘金热时期加利福尼亚州的空中场景、从东京火车内部拍摄的视频等。许多演示都有人工智能的痕迹比如在一段博物馆的视频中,地板疑似在移动。OpenAI 表示,该模型"可能难以准确模拟复杂场景的物理现象",但总体而言,演示结果令人印象深刻。几年前,像 Midjourney 这样的文本到图像生成器在模型将文字转化为图像的能力方面处于领先地位。但最近,视频技术开始飞速进步:Runway 和 Pika 等公司都展示了自己令人印象深刻的文字转视频模型,而Google的 Lumiere 也将成为 OpenAI 在这一领域的主要竞争对手之一。与 Sora 类似,Lumiere 也为用户提供了文字转换视频的工具,还能让用户通过静态图像创建视频。Sora 目前只对"红队"人员开放,他们负责评估模型的潜在危害和风险。OpenAI 还向一些视觉艺术家、设计师和电影制片人提供访问权限,以获得反馈意见。它指出,现有模型可能无法准确模拟复杂场景的物理现象,也可能无法正确解释某些因果关系。本月早些时候,OpenAI 宣布将在其文本到图像工具 DALL-E 3 中添加水印,但指出这些水印"很容易去除"。与其他人工智能产品一样,OpenAI 将不得不面对人工智能逼真视频被误认为是真实视频的后果。 ... PC版: 手机版:

封面图片

OpenAI 的视频生成器 Sora 正式发布

OpenAI 的视频生成器 Sora 正式发布 当地时间周一,OpenAI 推出了其文本转视频人工智能模型 Sora ,这是其为期12天的“产品发布季”系列的一部分,现已在上向美国和“大多数其他国家”的 ChatGPT 订阅用户推出,还有一款新模型 Sora Turbo 同步推出。这个更新的模型增加了从文本生成视频、动画图像和混合视频等功能。OpenAI 表示,通过 ChatGPT Plus 订阅,用户可以生成最多 50 个优先视频 (1,000 个积分),分辨率高达 720p,时长为 5 秒。上周推出的 ChatGPT Pro 订阅每月收费 200 美元,提供“无限生成”功能,最多可生成 500 个优先视频,同时将分辨率提高到 1080p,时长提高到 20 秒。更昂贵的套餐还允许订阅者下载无水印视频,并同时进行最多五次生成。 TheVerge-电报频道- #娟姐新闻:@juanjienews

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人