[整理]基于Sora是否真的像Open AI说的一样是个世界模型,又吵起来了。

[整理]基于Sora是否真的像Open AI说的一样是个世界模型,又吵起来了。 基本上就是两派一派类似杨立昆的论点,模型必须理解底层理论从底层理论推导出来物理现象才能叫世界模型。 另一派的意思是只要他表现出来相当程度的物理世界的表现,那就有继续优化的机会,就有可能变成完整的世界 ...

相关推荐

封面图片

重磅: Open AI 正式推出文生视频模型 Sora

重磅: Open AI 正式推出文生视频模型 Sora 名为Sora 视频模型突然降临,Open AI 目前提供的情报,所揭示的一些惊人能力: - Sora 根据用户提示可以生成长达一分钟的视频,同时保持视觉质量。(在这部电影预告片的提示词,非常简介:讲述 30 岁的太空人头戴红色羊毛针织摩托车头盔的冒险故事,蓝天、盐碱沙漠、电影风格、35 毫米胶片拍摄、色彩鲜明。) - Sora 能够生成包含多个角色、特定运动类型以及主体和背景准确细节的复杂场景。 - Sora 将理解你。这意味着和Dall·E 3有着类似的体验,它具有非凡的语言理解力。 - Sora 还能理解这些事物在物理世界中是如何存在的;换句话说,Sora 理解关于世界如何通过知识和规律进行表征,这可能是重大突破之一。(Hans注,这并不代表它是完美理解世界) - Sora 还能在单个生成的视频中创建多个镜头,准确地体现角色和视觉风格。 - Sora 是一种采取了Transformer架构的扩散模型,不仅能生成还能延长,让模型一次性预测多帧画面,确保主体一致性。 - 更多官方案例参考 安全方面的声明和步骤: Open A 正在与红队人员(错误信息、仇恨内容和偏见等领域的专家)合作,他们将对模型进行对抗性测试。还在开发一些工具来帮助检测误导性内容,例如检测分类器,它可以分辨出视频是由 Sora 生成的。 Open AI相信,从现实世界的使用中学习,是随着时间的推移创建和发布越来越安全的人工智能系统的重要组成部分。 Text 2 Video 的生态位 差不多在去年这个时候,Runway 所引爆的 Text 2 Video相关的生态位开启了重构好莱坞的想象空间。不到一年 Sora 的横空出生,其必将带来难以想像的变革力量。这是山峰再一次的快速攀升。 从多模态的深远意义来说,我强烈意识到 Open AI 描述的野心: 「Sora 是能够理解和模拟现实世界的模型的基础,我们相信这种能力将是实现 AGI 的重要里程碑。」 Invalid media:

封面图片

OpenAI 推出文本到视频人工智能模型 Sora

OpenAI 推出文本到视频人工智能模型 Sora 根据 OpenAI 的介绍博文,Sora 能够创建"具有多个角色、特定运动类型以及主体和背景准确细节的复杂场景"。该公司还指出,该模型能够理解物体"在物理世界中的存在方式",还能"准确解释道具并生成表达生动情感的引人注目的角色"。该模型还能根据静态图像生成视频,以及在现有视频中填充缺失的帧或扩展视频。OpenAI 的博文中包含的 Sora 生成的演示包括淘金热时期加利福尼亚州的空中场景、从东京火车内部拍摄的视频等。许多演示都有人工智能的痕迹比如在一段博物馆的视频中,地板疑似在移动。OpenAI 表示,该模型"可能难以准确模拟复杂场景的物理现象",但总体而言,演示结果令人印象深刻。几年前,像 Midjourney 这样的文本到图像生成器在模型将文字转化为图像的能力方面处于领先地位。但最近,视频技术开始飞速进步:Runway 和 Pika 等公司都展示了自己令人印象深刻的文字转视频模型,而Google的 Lumiere 也将成为 OpenAI 在这一领域的主要竞争对手之一。与 Sora 类似,Lumiere 也为用户提供了文字转换视频的工具,还能让用户通过静态图像创建视频。Sora 目前只对"红队"人员开放,他们负责评估模型的潜在危害和风险。OpenAI 还向一些视觉艺术家、设计师和电影制片人提供访问权限,以获得反馈意见。它指出,现有模型可能无法准确模拟复杂场景的物理现象,也可能无法正确解释某些因果关系。本月早些时候,OpenAI 宣布将在其文本到图像工具 DALL-E 3 中添加水印,但指出这些水印"很容易去除"。与其他人工智能产品一样,OpenAI 将不得不面对人工智能逼真视频被误认为是真实视频的后果。 ... PC版: 手机版:

封面图片

生数科技联合清华发布视频大模型Vidu 全面对标Sora

生数科技联合清华发布视频大模型Vidu 全面对标Sora 据介绍,Vidu不仅能够模拟真实物理世界,还拥有丰富想象力,具备多镜头生成、时空一致性高等特点。Vidu是自Sora发布之后全球率先取得重大突破的视频大模型,性能全面对标国际顶尖水平,并在加速迭代提升中。与Sora一致,Vidu能够根据提供的文本描述直接生成长达16秒的高质量视频。值得一提的是,短片中的片段都是从头到尾连续生成,没有明显的插帧现象,从这种“一镜到底”的表现能够推测出,Vidu采用的是“一步到位”的生成方式,与Sora一样,文本到视频的转换是直接且连续的,在底层算法实现上是基于单一模型完全端到端生成,不涉及中间的插帧和其他多步骤的处理。 ... PC版: 手机版:

封面图片

像高手一样思考:让你脱颖而出的100个顶级思维模型

像高手一样思考:让你脱颖而出的100个顶级思维模型 简介:像高手一样思考:让你脱颖而出的100个顶级思维模型是一本针对像高手一样思考:让你脱颖而出的100个顶级思维模型主题的优质学习资料,结合理论与实践,从不同角度剖析内容,帮助学习者快速掌握核心要点,并提升实际应用能力。 标签: #像高#学习#成长#进步 文件大小NG 链接:https://pan.quark.cn/s/33776b7323fb

封面图片

卧槽,Open AI的大招终于来了,发布视频生成模型 Sora,从演示来看生成时长、运动幅度以及稳定性均碾压现在的所有生

卧槽,Open AI的大招终于来了,发布视频生成模型 Sora,从演示来看视频生成时长、运动幅度以及稳定性均碾压现在的所有视频生成模型。 Sora能够创作出长达一分钟的视频,不仅保证了视频的视觉质量,还能准确响应用户的指令。将在今天想有限的访问者开放。 模型优势: Sora能够创造出包括多个角色、特定动作类型以及对主题和背景的精确细节描述的复杂场景。这款模型不仅能理解用户在指令中提出的需求,还能洞察这些元素在现实世界中是如何存在和表现的。 这款模型对语言的理解非常深刻,使其能够精准地识别用户的指令,并创造出表情丰富、情感生动的角色。此外,Sora还能在同一视频内制作多个镜头,同时确保角色的形象和整体的视觉风格保持一致。 工作原理: Sora是一种扩散模型(diffusion model),它通过从类似静态噪声的视频出发,逐步去除噪声,从而在多个步骤中生成视频。 Sora不仅能一次生成整个视频,还能延长已有视频的长度。我们通过使模型能够预见多个画面帧,解决了确保视频中主题即使暂时离开画面也能保持一致的难题。 Sora采用了类似于GPT模型的变压器架构(transformer architecture),这为其带来了优异的扩展性能。 在Sora中,视频和图像被表示为一系列小块数据,称为“补丁”(patches),每个补丁都类似于GPT中的“令牌”(token)。通过统一数据表示方式,我们能够在之前不可能的更广泛视觉数据范围内训练扩散变压器,包括不同的时长、分辨率和长宽比。 Sora基于DALL·E和GPT模型的研究成果。它采用了DALL·E 3中的重标记技术(recaptioning technique),为视觉训练数据生成详细描述的标题。因此,模型能更准确地遵循用户在生成视频中的文字指令。 除了能从文字指令生成视频外,Sora还能将现有静止图像转化为视频,准确地动态展现图像内容并关注细节。此外,它还能扩展现有视频或填补视频中缺失的画面。 了解更多:

封面图片

Jim Fan 详细介绍了一下 Sora 的实现原理,这不仅仅是一个视频生成模型这么简单,还是一个基于数据驱动的虚幻 5 引擎。

Jim Fan 详细介绍了一下 Sora 的实现原理,这不仅仅是一个视频生成模型这么简单,还是一个基于数据驱动的虚幻 5 引擎。 如果你以为OpenAI Sora只是一个像DALLE这样的创意小玩具,那你可要重新认识一下了。Sora实际上是一个基于数据驱动的物理引擎,能够模拟各种真实或奇幻的世界。这款模拟器能学会复杂的渲染技术、直观的物理规律、长期的逻辑推理以及语义理解,而这一切都是通过先进的去噪技术和梯度计算实现的。 我甚至猜测,Sora可能是通过使用Unreal Engine 5生成的大量合成数据来进行训练的。这听起来非常有可能! 下面我们来详细分析一段视频。这段视频的提示是:“一杯咖啡里,两艘海盗船相互战斗的逼真特写视频。” •视频中,模拟器创建了两艘装饰各异的精美海盗船的3D模型。Sora需要在其庞大的数据空间中隐式地完成从文本到3D模型的转换。 •这些3D模型的海盗船在航行中能够自然地动起来,它们在避开对方的同时,动作流畅协调。 •还有咖啡的流体动力学表现,包括船只周围形成的泡沫。流体模拟本身就是计算机图形学中一个复杂的分支,通常需要复杂的算法和方程式来实现。 •视频的光影效果逼真,几乎可以媲美光线追踪技术的渲染效果。 •模拟器还考虑到了杯子与海洋相比较小的尺寸,并运用了移轴摄影技术(Tilt-shift photography),为整个场景增添了一种微观世界的感觉。 •虽然视频中的场景在现实世界里找不到对应,但模拟器还是根据我们的期望,准确实现了物理规则。 接下来的步骤是:引入更多的模态和条件变量,我们就可以得到一个全面的、基于数据驱动的Unreal Engine。它将有望替代所有现有的手工设计图形处理流程。 Invalid media:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人