OpenAI的首席技术官Mira Murati在接受华尔街日报采访时对Sora的进行了详细介绍。|

OpenAI的首席技术官Mira Murati在接受华尔街日报采访时对Sora的进行了详细介绍。| 发布时间:Sora目前还在开发和测试阶段,OpenAI计划在今年内的某个时间发布Sora,具体时间可能考虑到全球选举等因素,目前仍在打磨中,且正在进行外部测试,尤其关注电影行业的创作者。 生成时间:关于生成视频的时间,720P分辨率或20秒长视频,生成时间大概在几分钟,这取决于提示的复杂性,这与传言中需要数个小时的说法不同,同时他们也在优化资源。 目前视频没有声音,Sora未来可能会支持视频声效。 数据来源:当被问及Sora训练的素材是否包括YouTube、Instagram和Facebook上的视频时,Mira Murati的回答是不确定的。她没有明确确认这些平台的视频是否被用作训练数据,称Sora的训练数据来自公开可用和授权的数据,最后结束后确认训练数据包括Shutterstock的内容。 计算资源:Sora的生成过程相比于ChatGPT和DALI需要更多的计算资源,OpenAI致力于优化技术,降低成本,便于公众使用。 安全性和可靠性:Sora目前正在进行红队测试(测试工具的安全性、可靠性和缺陷),以识别潜在的漏洞、偏见和其他有害问题。 内容限制:与DALLE类似,Sora在生成内容时也会有一些限制,例如不生成公众人物的图像,以避免误导和滥用。 裸露内容:关于裸露内容的处理,提到OpenAI正在与艺术家和创作者合作,以确定工具应该提供的灵活性水平和合理的限制,但没有具体提到如何区分艺术和色情的内容​​。 正在研究对视频进行水印标记,但是相对一水印,视频内容的审核限制更为重要,因为随着生成的视频更加真实,用户将无法分辨视频内容的真实性,防止生成误导内容。

相关推荐

封面图片

您很快就能亲自尝试 OpenAI 的热门文本到视频生成器。OpenAI 首席技术官 Mira Murati 在接受《华尔街日报》

您很快就能亲自尝试 OpenAI 的热门文本到视频生成器。OpenAI 首席技术官 Mira Murati 在接受《华尔街日报》采访时表示,Sora 将于“今年”推出,“可能需要几个月”。 OpenAI 在二月份首次展示了 Sora,它能够根据文本提示生成超现实场景。该公司只向视觉艺术家、设计师和电影制作人提供该工具,但这并没有阻止一些 Sora 生成的视频进入 X 等平台。 Murati 表示,除了向公众提供该工具外,OpenAI 还计划“最终”整合音频,这有可能使场景更加真实。该公司还希望允许用户编辑 Sora 制作的视频中的内容,因为人工智能工具并不总是能创建准确的图像。“我们正在努力弄清楚如何使用这项技术作为人们可以编辑和创作的工具,”Murati 告诉《华尔街日报》。 当被问及 OpenAI 使用哪些数据来训练 Sora 时,Murati 没有说得太具体,并且似乎回避了这个问题。“我不会详细介绍所使用的数据,但它是公开可用或许可的数据,”她说。Murati 还表示,她不确定它是否使用了 YouTube、Facebook 和 Instagram 上的视频。她只向《华尔街日报》证实,Sora 使用的是来自 Shutterstock 的内容,而OpenAI 与 Shutterstock 建立了合作伙伴关系。 Murati 还告诉《华尔街日报》,Sora 的电力“昂贵得多”。OpenAI 正试图让该工具在向公众发布时“以类似的成本”与 DALL-E(该公司的人工智能文本到图像模型)一起使用。您可以在《华尔街日报》的报道中看到该工具可以制作的更多类型视频的示例,包括瓷器商店中的动画公牛和美人鱼智能手机评论员。 via 匿名 标签: #OpenAI 频道: @GodlyNews1 投稿: @GodlyNewsBot

封面图片

奥尔特曼选取网友提示词 用OpenAI新款大模型Sora生成视频

奥尔特曼选取网友提示词 用OpenAI新款大模型Sora生成视频 一位时髦女士漫步在东京街头,周围是温暖闪烁的霓虹灯和动感的城市标志。一名年约三十的宇航员戴着红色针织摩托头盔展开冒险之旅,电影预告片呈现其穿梭于蓝天白云与盐湖沙漠之间的精彩瞬间,独特的电影风格、采用35毫米胶片拍摄,色彩鲜艳。竖屏超近景视角下,这只蜥蜴细节拉满:OpenAI表示,公司正在教授人工智能理解和模拟运动中的物理世界,目标是训练出能够帮助人们解决需要与现实世界互动的问题的模型。在此,隆重推出文本到视频模型Sora。Sora可以生成长达一分钟的视频,同时保证视觉质量和符合用户提示的要求。OpenAI创始人兼CEOSam Altman(奥尔特曼)太会玩了,让网友评论回复Prompt(大语言模型中的提示词),他选一些用Sora生成视频。截至发稿,奥尔特曼连发多条根据网友提示词生成的视频,包括不同动物在海上进行自行车比赛、发布自制面疙瘩烹饪教学视频的祖母、两只金毛犬在山顶做播客、日落时分火星上进行的一场无人机竞赛等。但这些视频时长为9秒至17秒不等。技术层面,Sora采用扩散模型(diffusion probabilistic models)技术,基于Transformer架构,但为了解决Transformer架构核心组件注意力机制的长文本、高分辨率图像处理等问题,扩散模型用可扩展性更强的状态空间模型(SSM)主干替代了传统架构中的注意力机制,可以使用更少的算力,生成高分辨率图像。此前Midjourney与Stable Diffusion的图像与视频生成器同样基于扩散模型。同时,Sora也存在一定的技术不成熟之处。OpenAI表示,Sora可能难以准确模拟复杂场景的物理原理,可能无法理解因果关系,可能混淆提示的空间细节,可能难以精确描述随着时间推移发生的事件,如遵循特定的相机轨迹等。根据OpenAI关于Sora的技术报告《Video generation models as world simulators》(以下简称报告),跟大语言模型一样,Sora也有涌现的模拟能力。OpenAI方面在技术报告中表示,并未将Sora单纯视作视频模型,而是将视频生成模型作为“世界模拟器”,不仅可以在不同设备的原生宽高比直接创建内容,而且展示了一些有趣的模拟能力,如3D一致性、长期一致性和对象持久性等。目前Sora能够生成一分钟的高保真视频,OpenAI认为扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。报告指出,OpenAI研究了在视频数据上进行大规模训练的生成模型。具体而言,联合训练了文本条件扩散模型,该模型可处理不同持续时间、分辨率和长宽比的视频和图像。OpenAI利用了一种基于时空补丁的视频和图像潜在代码的变压器架构。最大的模型Sora能够生成一分钟的高保真视频。结果表明,扩展视频生成模型是构建通用物理世界模拟器的有前途的途径。报告重点介绍了OpenAI将各类型视觉数据转化为统一表示的方法,这种方法能够对生成模型进行大规模训练,并对Sora的能力与局限进行定性评估。先前的大量研究已经探索了使用多种方法对视频数据进行生成建模,包括循环网络、生成对抗网络、自回归转换器和扩散模型。这些研究往往只关注于狭窄类别的视觉数据、较短的视频或固定大小的视频。而Sora是一个通用的视觉数据模型,它能够生成跨越不同时长、纵横比和分辨率的视频和图像,甚至能够生成长达一分钟的高清视频。OpenAI从大型语言模型中汲取灵感,这些模型通过训练互联网规模的数据获得通用能力。LLM范式的成功在一定程度上得益于令牌的使用,这些令牌巧妙地统一了文本的不同模式代码、数学和各种自然语言。在这项工作中,OpenAI考虑视觉数据的生成模型如何继承这些优势。虽然LLM有文本令牌,但Sora有视觉补丁。之前已经证明,补丁是视觉数据模型的有效表示。补丁是一种高度可扩展且有效的表示,可用于在多种类型的视频和图像上训练生成模型。Sora支持采样多种分辨率视频,包括1920x1080p的宽屏视频、1080x1920的竖屏视频以及介于两者之间的所有分辨率。这使得Sora能够直接以原生纵横比为不同的设备创建内容。同时,它还允许在生成全分辨率内容之前,使用相同的模型快速制作较小尺寸的内容原型。 ... PC版: 手机版:

封面图片

OpenAI Sora更强大功能曝光:可一次生成多个视频、拼接展示

OpenAI Sora更强大功能曝光:可一次生成多个视频、拼接展示 OpenAI研究科学家比尔·皮布尔斯(Bill Peebles)在X上发文称,Sora可以同时生成多个并排在一起的视频。根据他在推文中展示的动图,Sora生成了5个人们在下雪天漫步、玩雪的视频。皮布尔斯展示的Sora视频拼贴功能“这是Sora一次性生成的视频样本,并不是我们把5个视频拼接在一起。Sora决定同时拥有五个不同的视角!”皮布尔斯在推文中称。目前,OpenAI尚未向公众开放Sora。OpenAI称,该模型正在接受测试,只分享给了一批精选的研究人员和学者。他们将研究Sora,以寻找该模型被滥用的风险。 ... PC版: 手机版:

封面图片

YouTube CEO表示OpenAI用其视频训练Sora将违反平台服务条款

YouTube CEO表示OpenAI用其视频训练Sora将违反平台服务条款 "从创作者的角度来看,当创作者将他们的辛勤劳动上传到我们的平台时,他们有一定的期望,"莫汉周四在接受彭博原创节目主持人艾米莉-张(Emily Chang)的采访时说,"其中一个期望就是要遵守服务条款。 它不允许下载文字稿或视频片段等内容,这明显违反了我们的服务条款。这些就是我们平台上内容的行事规则。"关于 OpenAI 使用什么材料来训练 ChatGPT 和 DALL-E 等流行内容创作产品的人工智能模型,公众一直争论不休。Sora 和其他生成式人工智能工具的工作原理是从网络上吸取各种内容,并将这些数据作为工具生成新内容(包括视频、照片、叙述性文字等)的基础。随着OpenAI、Google等公司竞相开发更强大的人工智能,它们正寻求尽可能多的内容来训练其人工智能模型,以获得更高质量的结果。Google和YouTube是Alphabet公司的子公司。微软公司支持的 OpenAI 没有立即回应置评请求。OpenAI 首席技术官米拉-穆拉提(Mira Murati)上个月在接受《华尔街日报》采访时说,她不确定 Sora 是否是在 YouTube、Facebook 和 Instagram 的用户生成视频上训练出来的。本周,《华尔街日报》援引熟悉此事的人士的话报道称,OpenAI 已经讨论过在转录 YouTube 公开视频的基础上训练其下一代大型语言模型 GPT-5。莫汉说,Google在决定是否使用平台上的视频来训练公司自己的强大人工智能模型"双子座"(Gemini)之前,会遵守 YouTube 与创作者签订的个人合同。"很多创作者在我们的平台上都有不同类型的内容授权合同。他说,虽然"YouTube语料库中的部分内容可能会被用于"训练Gemini等模型,但Google和YouTube会确保将这些视频用作Google人工智能的训练数据"符合该创作者事先签署的服务条款或合同"。 ... PC版: 手机版:

封面图片

OpenAI CTO:Sora今年将发布 会添加语音功能

OpenAI CTO:Sora今年将发布 会添加语音功能 以下为翻译全文:某个清晨醒来时,你是否曾幻想过一头公牛在精致的瓷器店中悠然自得地行走的场景?要实现这一奇幻景象,你有三种途径:A)联系当地的动物驯养师以及知名家居品牌Crate & Barrel;B)雇请顶尖的好莱坞动画制作人;C)使用神奇的AI工具Sora,简单输入指令即可。欢迎进入人工智能的下一个“魔法世界”。在这里,你的语言能够化作逼真、流畅且细腻的视频画面。OpenAI计划在今年晚些时候向大众推出其文本到视频的转换工具Sora。尽管正式发布尚需时日,但OpenAI已经向我们揭示了这款工具的惊人潜力:仅需精心设计的文本指令,便可创造出几乎足以替代许多视频制作专业人员的作品。《华尔街日报》专栏作家乔安娜·斯特恩(Joanna Stern)向该公司提交了几条由她自己编写的提示,比如一条美人鱼和她的螃蟹伙伴评测智能手机,或是一头公牛在精致的瓷器店内自由漫步。斯特恩随后亲身体验了Sora的神奇之处,她利用这款工具制作了一段模拟对OpenAI首席技术官穆拉蒂进行虚拟视频采访的片段,两人深入剖析了这些有趣的问题,并对该技术的潜在问题进行了探讨。OpenAI在上个月首次展示了用其生成式人工智能工具制作的视频预览,整个互联网为之沸腾。与之前那些断断续续、分辨率低下的人工智能视频技术相比,Sora生成的内容无疑是一场视觉盛宴,堪比高品质的自然纪录片或大制作电影。与之前的人工智能技术相似,Sora首先让我们对其能力感到惊叹,随即又担忧其对社会的影响。面对斯特恩的担忧,穆拉蒂向她保证,OpenAI在发布这一强大工具时将采取慎重的步骤。但这并不意味着一切都将无忧无虑。这些超逼真视频真的是Sora生成的吗?斯特恩对Sora生成的视频感到深深震撼:从无人机视角拍摄的意大利阿马尔菲海岸的壮观景色,到手持自拍杆的柯基犬,再到冲浪板上活泼的动画水獭,这些画面无一不展示了Sora在创意和细节处理上的强大能力。她进一步挑战Sora,要求它生成更接近日常生活的场景:“两名30多岁、棕发的职业女性在一个明亮的演播室里坐下接受新闻采访。”Sora生成的视频中,两位女性的嘴唇和头发动作自然流畅,皮夹克的细节也清晰可见。穆拉蒂透露,这段20秒长、720P分辨率的视频仅用了几分钟就完成了生成,尽管目前还未加入声音。但她承诺,OpenAI正在计划为Sora增添语音功能。为了对比Sora与其他工具的区别,斯特恩也在另一个AI视频生成器Runway上输入了相同的提示。然而,得到的结果大相径庭,Runway生成的画面是两个模糊、幽灵般的女性形象,它们看起来像是直接从恶梦中走出来的,令人毛骨悚然。那么,Sora究竟是如何实现这一神奇转换的呢?尽管解释其内部工作原理可能比解释美人鱼的进化还要复杂,但简单来说,Sora背后的AI模型通过分析大量视频数据,学会了识别和理解各种物体与动作。输入文本提示后,模型能够迅速勾勒出整个场景的基本轮廓,并逐帧添加细节。行业观察人士和竞争对手,包括Runway的首席执行官,都认为OpenAI的这些显著成就归功于其巨大的计算资源和庞大的训练数据量。但OpenAI最近也面临着版权侵犯的指控,因未经授权使用大量在线内容训练其ChatGPT模型。当被问及OpenAI为训练Sora使用了哪些数据时,穆拉蒂表示:“我们主要使用了公开可获取的数据及已授权数据。”。当被进一步追问这些数据是否包括YouTube、Instagram和Facebook上的视频时,穆拉蒂表示她并不清楚具体细节,但后来确认,已授权的材料确实包含了知名版权图片网站Shutterstock上的内容。人工智能模型对普通用户来说往往是个神秘的黑匣子。我们看到的是输入和输出,而中间的处理过程则不得而知。因此,我们可能永远无法完全理解为何生成的内容展现出某些特定的风格或特征。例如,斯特恩提到的那条美人鱼身旁的甲壳类伙伴留着类似《海绵宝宝》中蟹老板的胡须,这是否是模型的创新还是某种偶然?穆拉蒂还告诉斯特恩,当前Sora生成视频的成本远高于该公司的图像生成器Dall-E。但她承诺,在Sora正式向公众发布前,团队将对其进行优化,以降低计算资源消耗。如何识别人工智能生成视频?在当前的早期阶段,人工智能生成的内容中还存在一些明显的瑕疵。例如,在Sora生成的采访视频中,一位浅发色女子的一只手似乎多出了五根手指。对此,穆拉蒂解释道:“准确再现手部运动真的很难。”在另一次测试中,斯特恩期望看到一个机器人从电影制片人手中夺走摄像机的场景。但Sora生成的是一位人类电影制片人突变成机器人,场面显得突兀且不自然。更有甚者,背景中的黄色出租车也不知怎的变成了银色轿车。穆拉蒂承认模型“在维持连贯性方面表现尚可,但并不完美”。这引出了一个深刻的议题:当这些缺陷得到修正,人工智能生成的视频愈发逼真时,我们如何区分真实与人工智能生成的视频?Sora生成的每个视频下方都会有一个水印。穆拉蒂解释说,最终这些视频还将包含元数据,以标示其生成方式和来源。此外,OpenAI设有一个名为“Sora红队”的安全测试小组。该团队的职责是提供各种提示,探索潜在的漏洞、偏见和其他可能的有害结果。穆拉蒂说:“这就是我们目前还没有广泛部署这些系统的原因。我们需要先弄清楚这些问题,然后才能放心地将其推向市场。”就Sora的提示词政策而言,穆拉蒂透露,它可能借鉴OpenAI的另一工具Dall-E的做法。例如,为了防止滥用和侵犯隐私,用户将无法使用Sora来生成公众人物的形象。当斯特恩试图输入“在任美国总统的电视新闻画面”时,Sora拒绝了这一请求。斯特恩也尝试让Sora生成“在东欧小镇上行走的士兵”的视频,但也遭到了拒绝。对于裸露等敏感内容的提示,穆拉蒂表示OpenAI正在与艺术家和专家紧密合作,共同探讨如何在不阻碍创意表现的同时,设立合理的“护栏和限制”。将与好莱坞合作随技术发展,像Sora这样的AI工具将变得更强大、更精细。这种进步可能会改变传统的工作方式,如无人机操作员或插画家的角色,引起好莱坞既期待又忧虑的反响。演员、电影制片人和工作室老板泰勒·佩里(Tyler Perry)表示,看到Sora的潜力后,他宣布暂停耗资8亿美元的工作室扩建计划。他认为这项技术能够削减布景和外景拍摄的成本,但同时也对电影行业和演员的未来抱有担忧。代表好莱坞和全美各地动画艺术家的动画协会主席珍妮特·莫雷诺·金(Jeanette Moreno King)也称,尽管艺术创作决策仍需人类参与和判断力,未来却是充满不确定性的迷雾。爱德华·萨奇(EdwardSaatchi)及其人工智能视频工作室Fable正梦想打造一个AI版Netflix:仅需输入一段文本提示,便可呈现完整的电视剧集。对于Sora对视频制作行业的潜在影响,穆拉蒂重申了OpenAI采取的缓步审慎策略。她表示,OpenAI正在与行业内部人士合作,进行早期的测试和反馈征集,希望全球的电影制作者和创作者能加入这一探索过程,共同促进电影产业的发展。如果将OpenAI比作一开始提到的那头在瓷器店里自由漫步的公牛,那么它目前可能需要小心行事。但最终,它可能不可避免地将带来一些破坏。 ... PC版: 手机版:

封面图片

OpenAI Sora问世 通往AGI的又一个ChatGPT时刻

OpenAI Sora问世 通往AGI的又一个ChatGPT时刻 因为看完Sora你可能会发现,OpenAI自己可能要用它先杀死GPT-4了。每个人都可以创造自己的世界了先来看看Sora。人们一直期待GPT-5,但Sora带来的轰动不亚于一次GPT-5的发布。作为OpenAI 首推的文本转视频模型,Sora能够根据文本指令或静态图像生成长达 1分钟的视频,其中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动。同时也接受现有视频扩展或填补缺失的帧。每条提示60秒的视频长度与Pika Labs的3秒、Meta Emu Video的4秒、和Runway公司Gen-2的18秒相比,妥妥地铁赢了。并且从官方发布的演示来看,无论从视频流畅度还是细节表现能力上,Sora的效果都相当惊艳。比如官推里这条14秒的东京雪景视频。提示词:Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.“美丽的,被雪覆盖的东京正繁忙着。镜头穿过繁忙的城市街道,跟随着几个享受雪景和在附近摊位购物的人。美丽的樱花瓣随风飘落,与雪花一同飞舞。”穿着时尚的女性漫步在霓虹背景的东京街头,地面有积水倒影。对于五官和皮肤的刻画十分真实,特别是痘印和法令纹,细节让人惊叹。猛犸象自冰川雪原中缓步从来,背后升腾起雪雾。烛火旁纯真顽皮的3D动画小怪物,光影、表情和毛茸茸的细节满分:一名24岁女性的眼部特写,足以以假乱真。无人机视角的海浪拍打着Big Sur加瑞角海岸崖壁,落日洒下金色光芒。窗台上的花朵开放延时影像:民众们上街舞龙,庆祝中国农历春节。可爱小猫咪在线安抚起床气。夜晚街道跑着的快乐小狗。两艘微型海盗船在一杯咖啡里对峙。加州淘金时代罕见“历史影像”流出 像吗?Sora做的。目前Sora还在测试阶段,仅对部分评估人员、视觉艺术家、设计师和电影制作人们开放访问权限,拿到试用资格的人们已经开始想象力横飞。Sam Altman就转发网友用Sora制作的“金光灿灿动物园”视频,玩起了自己的“What”梗:他还邀请大家踊跃提出想用Sora制作视频的提示词,团队马上为大家生成,瞬间8千多条回复。网友脑洞大开,要看海洋生物的自行车公开赛。两只金毛在山上戴着耳机开播客。当然也不忘cue一下去向成谜的Ilya,要求生成一个“Ilya眼中的真实世界”。不过OpenAI也表示,虽然Sora 对自然语言有着深入的理解,能够准确洞悉提示词,生成表达丰富的内容,并可以创建多个镜头、保持角色和视觉风格的一致性,但仍不可避免地存在一些弱点。例如,它在准确模拟复杂场景的物理现象方面存在困难,也可能不理解特定的因果关系。比方说“一个人咬一口饼干后,饼干上可能并没有咬痕。”模型也可能混淆提示的空间细节,像是弄错左右。或者“在准确体现随时间发生的事件方面遇到困难,比如遵循特定的摄像机轨迹”。Sora也使用了DALL·E 3的recaptioning技术,该技术涉及为视觉训练数据生成高度描述性的标题。因此模型能够更忠实地按照用户在生成视频中的文本指令进行操作。它能够一次性生成整个视频,或是扩展已生成的视频使其变长。通过让模型一次性预见多帧,解决了即使主体暂时离开视线也能保持不变的挑战性问题。关于安全性,OpenAI表示正与错误信息、仇恨内容和偏见等领域的专家合作,对模型进行对抗性测试。同时也在开发帮助检测误导性内容的工具,识别视频是否由Sora生成。对于违反使用政策的文本提示,例如暴力、仇恨和侵犯他人知识产权等内容,将拒绝显示给用户。除此以外,为DALL·E 3产品构建的现有安全方法也同样适用于Sora。“尽管进行了广泛的研究和测试,我们仍无法预测人们将如何利用我们的技术,也无法预见人们如何滥用它。这就是为什么我们相信,从真实世界的用例中学习,是随时间构建越来越安全的AI系统的关键组成部分。”OpenAI对 Sora信心满满,认为这为模型理解和模拟真实世界奠定了基础,是“实现AGI的重要里程碑”。网友们也第n+1次纷纷哀悼起相关赛道的公司们:“OpenAI就是不能停止杀死创业公司。”“天哪,现在起我们要弄清什么是真的,什么是假的。”“我的工作没了。”“整个影像素材行业被血洗,安息吧。”能杀死GPT-4的世界模型?这不就是吗OpenAI一如既往没有给出很详细的技术说明,但一些只言片语已经足够让你浮想联翩。其中最吸引我们注意的第一个点,是对数据的处理。Sora是一个扩散模型(diffusion model),采用类似GPT的Transformer架构。而在解决训练中文本资料与视频数据之间的统一方面,OpenAI表示,他们在处理图像和视频数据时,把对它们进行分割后得到的最小单元,称为小块(patches),也就是对应LLM里的基本单元tokens。这是一个很重要的技术细节。把它作为模型处理的基本单元,使得深度学习算法能够更有效地处理各种视觉数据,涵盖不同的持续时间、分辨率和宽高比。从最终的震撼效果看,你很难不得出这样一个结论:对语言的理解能力,是可以迁移到对更多形态的数据的理解方法上去的。此前的Dalle-3的效果就被公认很大程度来自OpenAI在GPT上积累的领先N代的语言能力,哪怕是个图像为输出的模型,语言能力提升也是至关重要的。而今天的视频模型,同样如此。至于它是如何做到的,有不少行业内的专家给出了相同的猜测:它的训练数据里使用了游戏领域最前端的物理引擎Unreal Engine5,简单粗暴的理解,就是语言能力足够强大之后,它带来的泛化能力直接可以学习引擎生成的图像视频数据和它体现出的模式,然后还可以直接用学习来的,引擎最能理解的方式给这些利用了引擎的强大技术的视觉模型模块下指令,生成我们看到的逼真强大的对物理世界体现出“理解”的视频。基于这个猜测,OpenAI简短的介绍中的这句话似乎就更加重要了:“Sora 是能够理解和模拟现实世界的模型的基础,OpenAI相信这一功能将成为实现AGI的重要里程碑。”理解,现实,世界。这不就是人们总在争论的那个唯一有可能“干掉”GPT-4的世界模型。现在,OpenAI搞出来了它的雏形,摆在了你的面前。看起来,这个模型学会了关于 3D 几何形状和一致性的知识,而且并非OpenAI训练团队预先设定的,而是完全是通过观察大量数据自然而然地学会的。负责Sora训练的OpenAI科学家Tim Brooks表示,AGI将能够模拟物理世界,而Sora就是迈向这个方向的关键一步。显然,在OpenAI眼里,它不只是一个“文生视频模型”,而是更大的东西。我们如果尝试进一步给一个暴论,就是:语言是理解一切的基础,理解了视频后,世界模型才会到来。可能这才是比今天刷屏感慨“现实不存在了”之外,更恐怖的地方。这可能是人类通往AGI的又一个ChatGPT时刻。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人