OpenAI Sora问世 通往AGI的又一个ChatGPT时刻

OpenAI Sora问世 通往AGI的又一个ChatGPT时刻 因为看完Sora你可能会发现,OpenAI自己可能要用它先杀死GPT-4了。每个人都可以创造自己的世界了先来看看Sora。人们一直期待GPT-5,但Sora带来的轰动不亚于一次GPT-5的发布。作为OpenAI 首推的文本转视频模型,Sora能够根据文本指令或静态图像生成长达 1分钟的视频,其中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动。同时也接受现有视频扩展或填补缺失的帧。每条提示60秒的视频长度与Pika Labs的3秒、Meta Emu Video的4秒、和Runway公司Gen-2的18秒相比,妥妥地铁赢了。并且从官方发布的演示来看,无论从视频流畅度还是细节表现能力上,Sora的效果都相当惊艳。比如官推里这条14秒的东京雪景视频。提示词:Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.“美丽的,被雪覆盖的东京正繁忙着。镜头穿过繁忙的城市街道,跟随着几个享受雪景和在附近摊位购物的人。美丽的樱花瓣随风飘落,与雪花一同飞舞。”穿着时尚的女性漫步在霓虹背景的东京街头,地面有积水倒影。对于五官和皮肤的刻画十分真实,特别是痘印和法令纹,细节让人惊叹。猛犸象自冰川雪原中缓步从来,背后升腾起雪雾。烛火旁纯真顽皮的3D动画小怪物,光影、表情和毛茸茸的细节满分:一名24岁女性的眼部特写,足以以假乱真。无人机视角的海浪拍打着Big Sur加瑞角海岸崖壁,落日洒下金色光芒。窗台上的花朵开放延时影像:民众们上街舞龙,庆祝中国农历春节。可爱小猫咪在线安抚起床气。夜晚街道跑着的快乐小狗。两艘微型海盗船在一杯咖啡里对峙。加州淘金时代罕见“历史影像”流出 像吗?Sora做的。目前Sora还在测试阶段,仅对部分评估人员、视觉艺术家、设计师和电影制作人们开放访问权限,拿到试用资格的人们已经开始想象力横飞。Sam Altman就转发网友用Sora制作的“金光灿灿动物园”视频,玩起了自己的“What”梗:他还邀请大家踊跃提出想用Sora制作视频的提示词,团队马上为大家生成,瞬间8千多条回复。网友脑洞大开,要看海洋生物的自行车公开赛。两只金毛在山上戴着耳机开播客。当然也不忘cue一下去向成谜的Ilya,要求生成一个“Ilya眼中的真实世界”。不过OpenAI也表示,虽然Sora 对自然语言有着深入的理解,能够准确洞悉提示词,生成表达丰富的内容,并可以创建多个镜头、保持角色和视觉风格的一致性,但仍不可避免地存在一些弱点。例如,它在准确模拟复杂场景的物理现象方面存在困难,也可能不理解特定的因果关系。比方说“一个人咬一口饼干后,饼干上可能并没有咬痕。”模型也可能混淆提示的空间细节,像是弄错左右。或者“在准确体现随时间发生的事件方面遇到困难,比如遵循特定的摄像机轨迹”。Sora也使用了DALL·E 3的recaptioning技术,该技术涉及为视觉训练数据生成高度描述性的标题。因此模型能够更忠实地按照用户在生成视频中的文本指令进行操作。它能够一次性生成整个视频,或是扩展已生成的视频使其变长。通过让模型一次性预见多帧,解决了即使主体暂时离开视线也能保持不变的挑战性问题。关于安全性,OpenAI表示正与错误信息、仇恨内容和偏见等领域的专家合作,对模型进行对抗性测试。同时也在开发帮助检测误导性内容的工具,识别视频是否由Sora生成。对于违反使用政策的文本提示,例如暴力、仇恨和侵犯他人知识产权等内容,将拒绝显示给用户。除此以外,为DALL·E 3产品构建的现有安全方法也同样适用于Sora。“尽管进行了广泛的研究和测试,我们仍无法预测人们将如何利用我们的技术,也无法预见人们如何滥用它。这就是为什么我们相信,从真实世界的用例中学习,是随时间构建越来越安全的AI系统的关键组成部分。”OpenAI对 Sora信心满满,认为这为模型理解和模拟真实世界奠定了基础,是“实现AGI的重要里程碑”。网友们也第n+1次纷纷哀悼起相关赛道的公司们:“OpenAI就是不能停止杀死创业公司。”“天哪,现在起我们要弄清什么是真的,什么是假的。”“我的工作没了。”“整个影像素材行业被血洗,安息吧。”能杀死GPT-4的世界模型?这不就是吗OpenAI一如既往没有给出很详细的技术说明,但一些只言片语已经足够让你浮想联翩。其中最吸引我们注意的第一个点,是对数据的处理。Sora是一个扩散模型(diffusion model),采用类似GPT的Transformer架构。而在解决训练中文本资料与视频数据之间的统一方面,OpenAI表示,他们在处理图像和视频数据时,把对它们进行分割后得到的最小单元,称为小块(patches),也就是对应LLM里的基本单元tokens。这是一个很重要的技术细节。把它作为模型处理的基本单元,使得深度学习算法能够更有效地处理各种视觉数据,涵盖不同的持续时间、分辨率和宽高比。从最终的震撼效果看,你很难不得出这样一个结论:对语言的理解能力,是可以迁移到对更多形态的数据的理解方法上去的。此前的Dalle-3的效果就被公认很大程度来自OpenAI在GPT上积累的领先N代的语言能力,哪怕是个图像为输出的模型,语言能力提升也是至关重要的。而今天的视频模型,同样如此。至于它是如何做到的,有不少行业内的专家给出了相同的猜测:它的训练数据里使用了游戏领域最前端的物理引擎Unreal Engine5,简单粗暴的理解,就是语言能力足够强大之后,它带来的泛化能力直接可以学习引擎生成的图像视频数据和它体现出的模式,然后还可以直接用学习来的,引擎最能理解的方式给这些利用了引擎的强大技术的视觉模型模块下指令,生成我们看到的逼真强大的对物理世界体现出“理解”的视频。基于这个猜测,OpenAI简短的介绍中的这句话似乎就更加重要了:“Sora 是能够理解和模拟现实世界的模型的基础,OpenAI相信这一功能将成为实现AGI的重要里程碑。”理解,现实,世界。这不就是人们总在争论的那个唯一有可能“干掉”GPT-4的世界模型。现在,OpenAI搞出来了它的雏形,摆在了你的面前。看起来,这个模型学会了关于 3D 几何形状和一致性的知识,而且并非OpenAI训练团队预先设定的,而是完全是通过观察大量数据自然而然地学会的。负责Sora训练的OpenAI科学家Tim Brooks表示,AGI将能够模拟物理世界,而Sora就是迈向这个方向的关键一步。显然,在OpenAI眼里,它不只是一个“文生视频模型”,而是更大的东西。我们如果尝试进一步给一个暴论,就是:语言是理解一切的基础,理解了视频后,世界模型才会到来。可能这才是比今天刷屏感慨“现实不存在了”之外,更恐怖的地方。这可能是人类通往AGI的又一个ChatGPT时刻。 ... PC版: 手机版:

相关推荐

封面图片

奥尔特曼选取网友提示词 用OpenAI新款大模型Sora生成视频

奥尔特曼选取网友提示词 用OpenAI新款大模型Sora生成视频 一位时髦女士漫步在东京街头,周围是温暖闪烁的霓虹灯和动感的城市标志。一名年约三十的宇航员戴着红色针织摩托头盔展开冒险之旅,电影预告片呈现其穿梭于蓝天白云与盐湖沙漠之间的精彩瞬间,独特的电影风格、采用35毫米胶片拍摄,色彩鲜艳。竖屏超近景视角下,这只蜥蜴细节拉满:OpenAI表示,公司正在教授人工智能理解和模拟运动中的物理世界,目标是训练出能够帮助人们解决需要与现实世界互动的问题的模型。在此,隆重推出文本到视频模型Sora。Sora可以生成长达一分钟的视频,同时保证视觉质量和符合用户提示的要求。OpenAI创始人兼CEOSam Altman(奥尔特曼)太会玩了,让网友评论回复Prompt(大语言模型中的提示词),他选一些用Sora生成视频。截至发稿,奥尔特曼连发多条根据网友提示词生成的视频,包括不同动物在海上进行自行车比赛、发布自制面疙瘩烹饪教学视频的祖母、两只金毛犬在山顶做播客、日落时分火星上进行的一场无人机竞赛等。但这些视频时长为9秒至17秒不等。技术层面,Sora采用扩散模型(diffusion probabilistic models)技术,基于Transformer架构,但为了解决Transformer架构核心组件注意力机制的长文本、高分辨率图像处理等问题,扩散模型用可扩展性更强的状态空间模型(SSM)主干替代了传统架构中的注意力机制,可以使用更少的算力,生成高分辨率图像。此前Midjourney与Stable Diffusion的图像与视频生成器同样基于扩散模型。同时,Sora也存在一定的技术不成熟之处。OpenAI表示,Sora可能难以准确模拟复杂场景的物理原理,可能无法理解因果关系,可能混淆提示的空间细节,可能难以精确描述随着时间推移发生的事件,如遵循特定的相机轨迹等。根据OpenAI关于Sora的技术报告《Video generation models as world simulators》(以下简称报告),跟大语言模型一样,Sora也有涌现的模拟能力。OpenAI方面在技术报告中表示,并未将Sora单纯视作视频模型,而是将视频生成模型作为“世界模拟器”,不仅可以在不同设备的原生宽高比直接创建内容,而且展示了一些有趣的模拟能力,如3D一致性、长期一致性和对象持久性等。目前Sora能够生成一分钟的高保真视频,OpenAI认为扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。报告指出,OpenAI研究了在视频数据上进行大规模训练的生成模型。具体而言,联合训练了文本条件扩散模型,该模型可处理不同持续时间、分辨率和长宽比的视频和图像。OpenAI利用了一种基于时空补丁的视频和图像潜在代码的变压器架构。最大的模型Sora能够生成一分钟的高保真视频。结果表明,扩展视频生成模型是构建通用物理世界模拟器的有前途的途径。报告重点介绍了OpenAI将各类型视觉数据转化为统一表示的方法,这种方法能够对生成模型进行大规模训练,并对Sora的能力与局限进行定性评估。先前的大量研究已经探索了使用多种方法对视频数据进行生成建模,包括循环网络、生成对抗网络、自回归转换器和扩散模型。这些研究往往只关注于狭窄类别的视觉数据、较短的视频或固定大小的视频。而Sora是一个通用的视觉数据模型,它能够生成跨越不同时长、纵横比和分辨率的视频和图像,甚至能够生成长达一分钟的高清视频。OpenAI从大型语言模型中汲取灵感,这些模型通过训练互联网规模的数据获得通用能力。LLM范式的成功在一定程度上得益于令牌的使用,这些令牌巧妙地统一了文本的不同模式代码、数学和各种自然语言。在这项工作中,OpenAI考虑视觉数据的生成模型如何继承这些优势。虽然LLM有文本令牌,但Sora有视觉补丁。之前已经证明,补丁是视觉数据模型的有效表示。补丁是一种高度可扩展且有效的表示,可用于在多种类型的视频和图像上训练生成模型。Sora支持采样多种分辨率视频,包括1920x1080p的宽屏视频、1080x1920的竖屏视频以及介于两者之间的所有分辨率。这使得Sora能够直接以原生纵横比为不同的设备创建内容。同时,它还允许在生成全分辨率内容之前,使用相同的模型快速制作较小尺寸的内容原型。 ... PC版: 手机版:

封面图片

OpenAI的Sora视频生成模型也能用来渲染游戏

OpenAI的Sora视频生成模型也能用来渲染视频游戏 这篇题为《作为世界模拟器的视频生成模型》(Video generation models as world simulators)的论文由多位 OpenAI 研究人员共同撰写,揭开了 Sora 架构关键方面的神秘面纱例如,Sora 可以生成任意分辨率和长宽比(最高 1080p)的视频。根据论文所述,Sora 能够执行一系列图像和视频编辑任务,从创建循环视频、向前或向后延伸视频到更改现有视频的背景。但最吸引笔者的还是 Sora"模拟数字世界"的能力,OpenAI 的合著者如是说。在一次实验中,OpenAI 将 Sora 放到 Minecraft 上,让它在控制玩家的同时渲染世界及其动态(包括物理)。Sora 在 Minecraft 中控制一名玩家,并渲染视频游戏世界,请注意,颗粒感是由视频到 GIF 的转换工具造成的,而不是 Sora。图片来源:OpenAIOpenAI那么,Sora 是如何做到这一点的呢?正如 NVIDIA 高级研究员 Jim Fan(通过 Quartz)所说,与其说 Sora 是一个创意引擎,不如说它是一个"数据驱动的物理引擎"。它不仅能生成单张照片或视频,还能确定环境中每个物体的物理特性,并根据这些计算结果渲染照片或视频(或交互式 3D 世界,视情况而定)。合著者写道:"这些功能表明,继续扩展视频模型是开发物理和数字世界以及其中的物体、动物和人的高能力模拟器的一条大有可为的途径。"现在,Sora在视频游戏领域也有其通常的局限性。该模型无法准确模拟玻璃碎裂等基本互动的物理过程。即使在可以建模的互动中,Sora 也经常出现不一致的情况,例如在渲染一个人吃汉堡时,却无法渲染汉堡上的咬痕。不过,如果我没看错的话,Sora 似乎可以为更逼真(甚至可能是逼真)的程序生成游戏铺平道路。这既令人兴奋,又令人恐惧(考虑到Deepfake的影响)这也许就是为什么 OpenAI 选择暂时将 Sora 关在一个非常有限的访问程序后面的原因。相关文章:OpenAI 推出文本到视频人工智能模型 SoraOpenAI首个视频生成模型发布 能生成长达1分钟的高清视频 ... PC版: 手机版:

封面图片

OpenAI官宣启动“下一代前沿模型”训练 或整合“文生视频”模型Sora

OpenAI官宣启动“下一代前沿模型”训练 或整合“文生视频”模型Sora OpenAI在该博客文章中表示,“虽然我们为打造和发布在能力和安全性方面都处于业界领先地位的模型而感到自豪,但在这个重要时刻,我们欢迎围绕这一问题展开激烈的讨论。”公司称,其成立的这个新委员会的目的就是来评估这项“新的前沿模型”可能带来的任何风险。虽然目前外界普遍预计OpenAI所谓的“下一代前沿模型”就是GPT-5,但公司迄今未做过任何官方形式的表态。而根据OpenAI开发者体验主管罗曼·韦(Romain Huet)上周在巴黎的一次演讲,OpenAI下一代模型可能将被命名为“GPT-Next”。不过,也有外媒认为这实际上是Omni-2一个更精致、训练参数更多、更强的GPT-4o增强版。OpenAI称,新成立的“安全与保障委员会”的首要任务“将是在未来90天内评估进一步发展OpenAI的流程和保障措施”。随后,OpenAI将在董事会审查后公开分享“采纳建议”的最新情况。这意味着OpenAI的董事会应该最迟在今年8月26日收到该委员会的建议。如果按照这样的时间表来计算,OpenAI最快可能在今年秋季发布所谓的“下一代前沿模型”。不过,《纽约时报》报道称,AI模型的训练可能需要数月甚至数年时间。训练完成后,AI公司通常还会再花几个月时间来测试该模型,并对其进行微调,之后才能供公众使用。这就意味着,OpenAI的下一代模型可能并不会在90天之后就发布。在最近的国际人工智能首尔峰会期间发布的“安全更新(Security Update)”中,OpenAI也表示,在(其下一代模型)发布前,公司将花更多时间评估新模型的功能,这可以解释为什么没有具体的发布日期。OpenAI并未明确提及训练中模型的名称,但外界第一时间猜测这一“前沿模型”就是GPT-5。此前,OpenAI的基础模型一直遵循着明确的命名顺序,即GPT后以递增数字的形式变化。不过,需要注意的是,本月OpenAI发布的模型却命名为GPT-4o。在当地时间5月22日巴黎举行的VivaTech会议上演示 ChatGPT Voice时,OpenAI开发者体验主管罗曼·韦展示了一张幻灯片,揭示了未来几年人工智能模型的潜在增长趋势和命名,其中并没有GPT-5。 罗曼·韦展示了GPT-3时代、GPT-4时代、GPT-Next和“未来的模型”,而“Today(今天)”就处于GPT-4时代和GPT-Next之间。这似乎意味着,OpenAI推出的下一代模型或将命名为GPT-Next,但有外媒认为这实际上是Omni-2一个更精致、训练参数更多、更强的GPT-4o增强版。而且,罗曼·韦在演讲中也表示,在未来几个月或者说今年,人们将看到更多类型的OpenAI模型,而不仅仅是ChatGPT一种模型。迭代趋势预示下一代模型将整合Sora福布斯报道称,OpenAI所谓的“下一代前沿模型”可能会取代其领先的基础模型GPT-4,以及图像生成器、虚拟助手、搜索引擎和旗舰聊天机器人ChatGPT等强大的生成式AI工具。科技媒体ZDNET报道称,按照过去的趋势,外界可以预期“下一代前沿模型”的反应会更加准确,因为它将接受更多数据的训练。模型训练的数据越多,该模型生成连贯、准确内容的能力就越强,从而也能拥有更好地性能。例如,有研究称GPT-3.5是在1750亿个参数上训练的,而GPT-4的训练参数则已经达到1万亿。报道称,如果OpenAI“下一代前沿模型”发布,我们可能会看到该模型在训练参数上更大的飞跃。而回顾OpenAI过往的基础模型,从GPT-3.5到最新的GPT-4o,可以看到,随着模型的升级,产品的迭代已经让其变得更加智能,包括价格、响应速度、上下文长度等等。要知道,GPT-3.5只能输入和输出文本,而到GPT-4 Turbo时,已经可以通过文字和图像的输入以获得文本的输出。GPT-4o更是展示了更强大的能力,不仅能处理文本,还能创建图像内容,并以高度对话化的语音方式回答问题和响应指令。ZDNET报道称,按照OpenAI基础模型这样的迭代趋势,“下一代前沿模型”或将拥有输出视频的能力。今年2月,OpenAI发布了“文生视频”模型Sora,这可能会被整合到“下一代前沿模型”中以输出视频。OpenAI的目标是在超越竞争对手的同时,更快地推进AI技术,同时也安抚那些认为该技术越来越危险、助长虚假信息传播、取代工作岗位甚至威胁人类生存的批评者。虽然OpenAI在周二的博客文章中称,预期其“新前沿模型”将使我们在通往AGI的道路上达到更高的能力水平,这是一种能够理解、学习和执行人类可以执行的任何智力任务的 AI 形式。不过,专家们对 AGI 的可行性以及何时可能实现存在分歧。被誉为 AI 教父的 Geoffrey Hinton 估计,可能需要 20 年才能发展出 AGI。英伟达CEO黄仁勋则预测称,AI会在五年内通过人类测试,AGI将很快到来。 ... PC版: 手机版:

封面图片

▎ Sora近期,OpenAI再次扔出一枚深水炸弹,发布了首个文生视频模型Sora。

▎ Sora 近期,OpenAI再次扔出一枚深水炸弹,发布了首个文生视频模型Sora。 据介绍,Sora可以直接输出长达60秒的视频,并且包含高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。 Sora不仅能准确呈现细节,还能理解物体在物理世界中的存在,并生成具有丰富情感的角色。 该模型还可以根据提示、静止图像甚至填补现有视频中的缺失帧来生成视频。 AI视频要变天了! (视频示例来自: https://soravideos.media/ ) 标签: #新闻 #慢讯 频道: @me888888888888 群组:https://t.me/imbbbbbbbbbbb 合作&推广:@imbbbbb_bot@imbbbbbbbb 消息怕错过?请及时收藏频道并开启推送!

封面图片

openAI 奥特曼:回答关切的GPT-5、Sora、董事会闹剧、马斯克等 首个AGI系统能够回答关于宇宙统一理论和外星文明存在

openAI 奥特曼:回答关切的GPT-5、Sora、董事会闹剧、马斯克等 首个AGI系统能够回答关于宇宙统一理论和外星文明存在性等重大科学问题。#视频 频道:@kejiqu 群组:@kejiquchat

封面图片

ℹOpenAI Sora 生成一分钟影片需要花费多久时间?可能需要一个多小时#

ℹOpenAI Sora 生成一分钟影片需要花费多久时间?可能需要一个多小时# OpenAI 公布 Sora 模型之后,立刻把市面上所有文字生成影片的服务给比下去,等级完全不同,Sora 生成出的影片几乎可以直接能拿来...

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人