上午看 Sora 的几点收获:

上午看 Sora 的几点收获: Sora完全站在了Openai成功产品的肩膀上。 chatGPT背后是个大语言模型,把一个句子拆成若干个token,可能是一个单词、一个词组、一个短句,通过海量数据训练,推测下一个最大概率的token(生成文字)。 Sora模型,同样是把海量视频拆成一个个分块,配合GPT强大的语言能力,给视频分块增加和扩充文字描述。 当海量的训练视频都用这种分块统一拆分学习后,用户输入新指令,就可以从不同的分块里预测和生成新的视频分块,再变成一整条视频。 即:用语言模型 把用户指令扩写和改写 输入视频模型 生成新视频 这相当于人类给了一个作文题,语言模型写一篇描写场景的小作文,Sora再根据这篇作文生成视频,所以细节会比其他 AI 视频产品强太多。 新世界降临前夕,我们普通人可以做什么? 快刀青衣老师的观点:不管是文生视频、文生图,技术底层关注的是「生」,而我们普通人需要关注的是「文」。 表达有短板、想象力不够,出来的图和视频是没有意境的。 有文化的你输入“大漠孤烟直,长河落日圆”,没文化的我输入“沙漠上空挂着一个圆太阳”,出来的效果就是卖家秀和买家秀的区别。 保持阅读、在阅读的时候记录下具有画面感的段落、收集经典电影的精彩镜头…… 在技术逐渐平权的时代当下,期待我们每个人都能有“超能力”。

相关推荐

封面图片

腾讯混元文生图模型开源 采用Sora同架构

腾讯混元文生图模型开源 采用Sora同架构 5月14日,腾讯宣布旗下混元文生图模型升级并开源,参数量15亿,目前已在平台及上发布,包含模型权重、推理代码、模型算法等完整模型,企业与个人开发者可免费商用。该模型支持文生图功能且可作为视频等多模态视觉生成的基础。随着腾讯混元文生图大模型入局,采用 DiT 架构的大模型玩家再增一名。OpenAI 的视频生成模型 Sora 也采用 DiT 架构。腾讯方面介绍,混元文生图大模型是业内首个中文原生的 DiT 架构文生图模型,综合指标在文生图算法中排名第三。

封面图片

终于有普通人可以立刻使用的类 Sora 视频生成工具了!#ai# #sora#

终于有普通人可以立刻使用的类 Sora 视频生成工具了!#ai视频# #sora# 海外产品 viva 发布了首个开放给全部用户使用的 Sora 同架构视频生成模型,而且现阶段免费。 支持文本生成视频、图片生成视频以及 4K 分辨率放大功能,另外也支持提示词的自动优化。 文生视频单次可以生成一条 5 秒的视频,图生视频是 4 秒视频 我测试了一下应该是目前运动幅度最大的视频生成模型,同时图像分辨率也是现在可以用的视频生成产品中最大的。文生视频的效果比图生视频要更好,同时如果要是用的话建议把运动幅度调到 20 左右比较合适。 viva 优势领域就是可以生成比较好的竖屏视频,目前很多视频模型的演示都是横屏视频,竖屏的表现并不好,但是短视频又是视频内容的大头,所以竖屏视频的生成质量是个很重要的指标。 但是一致性有一部分测试中保持的不是很好,同时没有表现出 Sora 那样强大的物理特性模拟以及 3D 一致性。跟谷歌 刚发布的 Veo 模型对比来看在写实内容上其实以及差不多了。 下面是 viva 的视频演示,15 秒开始有相同的提示词跟谷歌刚发布的 Veo 模型的对比。 这里体验 viva:

封面图片

作为 2024 开年王炸,Sora 的出现树立了一个全新的追赶目标,每个文生视频的研究者都想在最短的时间内复现 Sora 的效果

作为 2024 开年王炸,Sora 的出现树立了一个全新的追赶目标,每个文生视频的研究者都想在最短的时间内复现 Sora 的效果。 最近,新加坡国立大学尤洋团队开源的一个名为 OpenDiT 的项目为训练和部署 DiT 模型打开了新思路。 OpenDiT 是一个易于使用、快速且内存高效的系统,专门用于提高 DiT 应用程序的训练和推理效率,包括文本到视频生成和文本到图像生成。 |

封面图片

Jim Fan 对于上条猜测Sora 用 UE5训练的补充说明:

Jim Fan 对于上条猜测Sora 用 UE5训练的补充说明: 很多人对“数据驱动的物理引擎”这个概念可能还有些疑惑,让我来进一步解释。Sora 是一种全新的模型,可以说是一个集成了图像处理和视频生成的智能系统。它能够接收文本或图像输入,并且直接转化成视频像素。这个过程中,Sora 像是在用一种隐式的方 ...

封面图片

OpenAI的Sora视频生成模型也能用来渲染游戏

OpenAI的Sora视频生成模型也能用来渲染视频游戏 这篇题为《作为世界模拟器的视频生成模型》(Video generation models as world simulators)的论文由多位 OpenAI 研究人员共同撰写,揭开了 Sora 架构关键方面的神秘面纱例如,Sora 可以生成任意分辨率和长宽比(最高 1080p)的视频。根据论文所述,Sora 能够执行一系列图像和视频编辑任务,从创建循环视频、向前或向后延伸视频到更改现有视频的背景。但最吸引笔者的还是 Sora"模拟数字世界"的能力,OpenAI 的合著者如是说。在一次实验中,OpenAI 将 Sora 放到 Minecraft 上,让它在控制玩家的同时渲染世界及其动态(包括物理)。Sora 在 Minecraft 中控制一名玩家,并渲染视频游戏世界,请注意,颗粒感是由视频到 GIF 的转换工具造成的,而不是 Sora。图片来源:OpenAIOpenAI那么,Sora 是如何做到这一点的呢?正如 NVIDIA 高级研究员 Jim Fan(通过 Quartz)所说,与其说 Sora 是一个创意引擎,不如说它是一个"数据驱动的物理引擎"。它不仅能生成单张照片或视频,还能确定环境中每个物体的物理特性,并根据这些计算结果渲染照片或视频(或交互式 3D 世界,视情况而定)。合著者写道:"这些功能表明,继续扩展视频模型是开发物理和数字世界以及其中的物体、动物和人的高能力模拟器的一条大有可为的途径。"现在,Sora在视频游戏领域也有其通常的局限性。该模型无法准确模拟玻璃碎裂等基本互动的物理过程。即使在可以建模的互动中,Sora 也经常出现不一致的情况,例如在渲染一个人吃汉堡时,却无法渲染汉堡上的咬痕。不过,如果我没看错的话,Sora 似乎可以为更逼真(甚至可能是逼真)的程序生成游戏铺平道路。这既令人兴奋,又令人恐惧(考虑到Deepfake的影响)这也许就是为什么 OpenAI 选择暂时将 Sora 关在一个非常有限的访问程序后面的原因。相关文章:OpenAI 推出文本到视频人工智能模型 SoraOpenAI首个视频生成模型发布 能生成长达1分钟的高清视频 ... PC版: 手机版:

封面图片

鉴于我们团队从去年开始就在做【世界模型(worldmodel)我必须要坚决地站在Yann 佬这边地指出OpenAI的Sora根本

鉴于我们团队从去年开始就在做【世界模型(worldmodel)我必须要坚决地站在Yann 佬这边地指出OpenAI的Sora根本不是世界模型,甚至除了都属于图像领域模型以外没有半毛钱关系。 事实上,人家openAI从未在任何官方宣传资料上使用过【世界模型(英文:world model)】这个名词来宣传sora,关于sora和世界模型的关系基本来自于翻译的误读、部分人群的颅内高潮外加营销号的刻意造势。 【世界模型】的定义并不在于它生成的东西能不能像一个世界。 一个模型如果能够被认定为【世界模型】它必须要向人们证明:其模型的预测结果可以随着环境中的主动交互进行变化,且这种变化还需要符合正确且统一的物理规律。(即图1中action的影响部分) 也正因为如此,【世界模型】才可以被应用到训练、测试和端到端的决策系统上。 从sora的技术方案中可看出(图2),sora的生成行为为:一次性生成视频而非不断地生成单帧图片。这意味着:sora生成的视频内容无法在其生成过程中被影响。 sora的生成行为从技术本质上来说是:一次生成=一个完整的视频。(抽一次卡一个视频),而基于【世界模型】的文生视频模型需要能够让你看到这个视频在时间线上的生成过程并且你还能够在这个过程没有走到结束的时候影响它的结果。 举个,如果你让sora生成一个:林克在草丛中奔跑,它也许能很好的完成任务,比如模仿出塞尔达的场景,让一个穿着英杰服拿着大师剑的林克在草丛中奔跑,也许它还能更好比如能转个弯跳一下。但是如果它是【世界模型】的话,你可以随时按照你的需要改变他奔跑的轨迹,甚至让他停下来,就像在玩游戏一样。 sora当然做不到这些甚至连物理规律都没学好 如果还有人告诉你它是世界模型,那么要么它就不该是你收集信息的信息源了,要么ta想骗你点什么。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人