刚发布就被对标Sora,这个国产模型来头这么大?

刚发布就被对标Sora,这个国产模型来头这么大? 要不是右下角有水印,我还差点以为是 Sora 的视频又上新了。所以这次的主角不是 Sora ,也不是各位差友熟知的 Pika 、 Runway 那几个 Sora 竞品,而是初出茅庐的国产视频大模型 Vidu 。咱看到的那些视频,就是前几天, Vidu 在中关村论坛的人工智能主题日上公布的。它最长能生成16 秒,一句 “ 木头玩具船在地毯上航行 ” 的提示词,就能生成下面这长长的一段,一镜到底的丝滑程度,怕是路过的谋子导演看了都会点赞。Sora 号称能真实模拟物理世界的拿手戏, Vidu 照样也能实现。让它生成一段 “ 汽车加速驶过森林里乡间小路 ” 的视频,像是树林缝隙透过的阳光,后轮扬起的灰尘,都很符合咱们的日常认知。而且 Vidu 的想象力比咱人还要丰富,画室里的一艘船驶向镜头的场景,它分分钟就能给 “ 拍 ” 出来,看这效果,不知道该有多少动效师瑟瑟发抖了。甚至在某些提示词下, Vidu 的理解能力比 Sora 还强,比如 “ 镜头绕着电视旋转 ” 的提示词, Sora 压根儿就没 get 到旋转的意思,反而是 Vidu 能轻松理解。有一说一,在看完 Vidu 的这些视频后,是真觉得它是目前市面上,唯一一个能在画面效果上和 Sora 拼一拼的模型。虽然现在16 秒的 Vidu 在时长上还比不上60 秒的 Sora ,但它的进步也确实是肉眼可见的快,据极客公园消息,上个月, Vidu 在内部只能生成 8 秒的视频,上上上个月,还只能生成 4 秒的视频。反正媒体们都把 Vidu 比作是 “ Sora 级视频大模型 ” ,网友们也都在评论区喊话催他们赶紧开放内测。不过这里面更好奇的是,咱之前压根儿都没听说过 Vidu ,怎么突然平地一声雷,搞出了这么大的阵仗?我们也顺藤摸瓜找了找资料,发现 Vidu 身上,值得说道的东西还挺多,甚至仔细咂摸下,还能从 Sora 身上找出点 Vidu 的影子来( 可没说反 )。它背后是一家名叫生数科技的公司,别看这个公司才刚满一周岁,但它可是在娘胎里就开始攒劲儿了。因为它的亲妈,是清华系AI 企业瑞莱智慧,背后的研究团队,几乎全是这里面的人。而在成立生数科技之前,团队就已经把视频大模型研究得很深入了。尤其是在图像生成这块很火的扩散( Diffusion )模型,他们算是业内第一批研究这个模型的,整出来的论文也在 ICML 、 NeurIPS 、 ICLR 各种顶会发了个遍。正是因为有这么好的底子,早在2022 年 9 月的时候,团队就找到了做 Vidu 的灵感,就是下面这篇论文。让 AI 帮咱解读了下,大概的思路就是,扩散模型在生成图像这块挺强,而大语言模型里用的 Transformer 有个规模( Scale )效应,参数堆得越多,性能就越好。团队就想着,能不能把这两个的优点结合一下,整个融合架构,提升图像生成的质量。于是他们转头把扩散模型里面的 U-Net 给换成 Transformer ,还起了个名字叫 U-ViT ( Vision Transformers )。结果试下来发现这么一结合还真有用,光是相同大小的 U-ViT ,性能就比 U-Net 强了。那好嘛,既然这条路走得通,他们也顺势把技术路线定在了 U-ViT 上。然鹅……在团队悄悄酝酿 Vidu 的时候,大洋彼岸的UC 伯克利的一个研究,却让 OpenAI 的 Sora 捷足先登了。就在清华小分队提交论文的两个月后, UC 伯克利也在预印平台 ArXiv 上提交他们的论文了,一样说要把 Transformers 揉在扩散模型里面,只不过名字起的更直白了点,叫DiT ( Diffusion Transformers )。看着是不是挺眼熟,没错, OpenAI 的 Sora 模型,用的就是伯克利的 DiT 技术路线。但因为清华小分队早发了两个月,当年的计算机视觉顶会 CVPR 2023 还以“ 缺乏创新 ” 的由头,拒了 Sora 的 DiT ,收录了 U-ViT 。而且早在 2023 年年初的时候,清华小分队还用 U-ViT ,训练出了一个近 10 亿参数量的开源大模型 UniDiffuser 。算是第一个用行动证明了,融合架构也遵守 Scaling Law 这一套规则,也就是说随着计算量、参数量越来越大,模型的性能就会随指数级上升。而这个 Scaling Law ,同样也是 Sora 这么强的秘密武器。所以照这么来盘算,Sora 其实还得叫 Vidu 一声祖师爷才对……但现实世界却是, DiT 被 OpenAI 带着一路飞升。清华小分队呢,计算资源没 OpenAI 那么到位,也没 ChatGPT 这种珠玉在前,总之就是啥啥都不完善,他们只能慢慢来,先做图像、 3D 模型,等有家底儿了,再去做视频。好在他们身上还是有点实力在的,稳扎稳打慢慢也赶上来了。去年 3 月,清华小分队们成立了生数科技后,就在马不停蹄地搞自家的产品,现在图像生成和 3D 模型生成大伙儿都能免费用了。并且靠着这两个产品,刚满一周年,它就攒了好几亿的家底。像是成立 3 个月的时候,就完成了一波近亿级的天使轮投资,上个月,又完成了新一轮的数亿元融资。参与投资的,也都是智谱 AI 、 BV 百度风投等等业内大佬。反正看这波架势, Vidu 还真有可能成为国内的黑马,去对标 OpenAI 的 Sora 。不过生数科技那边,倒是觉得只把 Vidu 看作国产版的 Sora ,实在是有点缺乏想象力了,因为他们给 Vidu 的定位,可不仅仅是个视频模型,而是图、文、视频全都要,只不过现在视频暂时是重点。当然了,好听话谁都会说,能不能搞出来,咱还得实打实地看成品。已经去排了队,等拿到内测资格,再跟大伙儿同步一波…… ... PC版: 手机版:

相关推荐

封面图片

生数科技联合清华发布视频大模型Vidu 全面对标Sora

生数科技联合清华发布视频大模型Vidu 全面对标Sora 据介绍,Vidu不仅能够模拟真实物理世界,还拥有丰富想象力,具备多镜头生成、时空一致性高等特点。Vidu是自Sora发布之后全球率先取得重大突破的视频大模型,性能全面对标国际顶尖水平,并在加速迭代提升中。与Sora一致,Vidu能够根据提供的文本描述直接生成长达16秒的高质量视频。值得一提的是,短片中的片段都是从头到尾连续生成,没有明显的插帧现象,从这种“一镜到底”的表现能够推测出,Vidu采用的是“一步到位”的生成方式,与Sora一样,文本到视频的转换是直接且连续的,在底层算法实现上是基于单一模型完全端到端生成,不涉及中间的插帧和其他多步骤的处理。 ... PC版: 手机版:

封面图片

中国团队发布视频大模型Vidu 称达到Sora级别

中国团队发布视频大模型Vidu 称达到Sora级别 中国科研团队在一场未来人工智能先锋论坛上,发布视频大模型Vidu,称它达到了Sora级别。 据中国新闻网报道,清华大学联合生数科技星期六(4月27日)在2024中关村论坛年会未来人工智能先锋论坛上,正式发布中国首个长时长、高一致性、高动态性视频大模型Vidu。 该模型采用团队原创的Diffusion与Transformer融合的核心技术架构U-ViT,支持一键生成长达16秒、分辨率高达1080P的高清视频内容。 据介绍,Vidu不仅能够模拟真实物理世界,还拥有丰富想象力,具备多镜头生成、时空一致性高等特点。Vidu是自Sora今年2月发布推出之后全球率先取得重大突破的视频大模型,性能全面对标国际顶尖水平,并在加速迭代提升中。 清华大学教授、生数科技首席科学家朱军在论坛上说,与Sora一致,Vidu能够根据提供的文本描述直接生成长达16秒的高质量视频。除在时长方面的突破外,Vidu在视频效果方面实现显著提升,主要体现在模拟真实物理世界、多镜头语言、时空一致性高、理解中国元素等方面。 朱军说:“值得一提的是,Vidu采用的是‘一步到位’的生成方式。Vidu的命名不仅谐音‘Vedio’,也蕴含‘We do’的寓意。” 2024年4月28日 9:04 PM

封面图片

快手发布国内首个效果对标Sora的视频生成大模型“可灵”,现已开放邀测

快手发布国内首个效果对标Sora的视频生成大模型“可灵”,现已开放邀测 近日,快手“可灵”视频生成大模型官网正式上线。据介绍,可灵大模型为快手AI团队自研,基于快手在视频技术方面的多年积累,采用Sora相似的技术路线,结合多项自研技术创新,效果对标Sora。可灵大模型不仅具备强大的概念组合能力和想象力,还能够生成大幅度的合理运动、模拟物理世界特性。其生成的视频分辨率高达1080p,时长最高可达2分钟(帧率30fps),且支持自由的宽高比。目前,可灵大模型已在快影App开放邀测体验。(36氪) 标签: #快手 #Sora #可灵 频道: @GodlyNews1 投稿: @GodlyNewsBot

封面图片

OpenAI 发布介绍 Sora,文本转视频模型

OpenAI 发布介绍 Sora,文本转视频模型 OpenAI 发布介绍 Sora,文本转视频模型。Sora 能够创造出长达 60 秒的视频,展现高度详尽的场景、复杂的摄像机运动,以及多个角色充满活力的情感。 了解更多,请访问

封面图片

OpenAI的Sora视频生成模型也能用来渲染游戏

OpenAI的Sora视频生成模型也能用来渲染视频游戏 这篇题为《作为世界模拟器的视频生成模型》(Video generation models as world simulators)的论文由多位 OpenAI 研究人员共同撰写,揭开了 Sora 架构关键方面的神秘面纱例如,Sora 可以生成任意分辨率和长宽比(最高 1080p)的视频。根据论文所述,Sora 能够执行一系列图像和视频编辑任务,从创建循环视频、向前或向后延伸视频到更改现有视频的背景。但最吸引笔者的还是 Sora"模拟数字世界"的能力,OpenAI 的合著者如是说。在一次实验中,OpenAI 将 Sora 放到 Minecraft 上,让它在控制玩家的同时渲染世界及其动态(包括物理)。Sora 在 Minecraft 中控制一名玩家,并渲染视频游戏世界,请注意,颗粒感是由视频到 GIF 的转换工具造成的,而不是 Sora。图片来源:OpenAIOpenAI那么,Sora 是如何做到这一点的呢?正如 NVIDIA 高级研究员 Jim Fan(通过 Quartz)所说,与其说 Sora 是一个创意引擎,不如说它是一个"数据驱动的物理引擎"。它不仅能生成单张照片或视频,还能确定环境中每个物体的物理特性,并根据这些计算结果渲染照片或视频(或交互式 3D 世界,视情况而定)。合著者写道:"这些功能表明,继续扩展视频模型是开发物理和数字世界以及其中的物体、动物和人的高能力模拟器的一条大有可为的途径。"现在,Sora在视频游戏领域也有其通常的局限性。该模型无法准确模拟玻璃碎裂等基本互动的物理过程。即使在可以建模的互动中,Sora 也经常出现不一致的情况,例如在渲染一个人吃汉堡时,却无法渲染汉堡上的咬痕。不过,如果我没看错的话,Sora 似乎可以为更逼真(甚至可能是逼真)的程序生成游戏铺平道路。这既令人兴奋,又令人恐惧(考虑到Deepfake的影响)这也许就是为什么 OpenAI 选择暂时将 Sora 关在一个非常有限的访问程序后面的原因。相关文章:OpenAI 推出文本到视频人工智能模型 SoraOpenAI首个视频生成模型发布 能生成长达1分钟的高清视频 ... PC版: 手机版:

封面图片

[整理] Kwebbelkop对 Open AI 只在 TikTok 发布 Sora 的新视频的猜测有点意思。

[整理] Kwebbelkop对 Open AI 只在 TikTok 发布 Sora 的新视频的猜测有点意思。 OpenAI将收集用户发布的的 Sora 视频的数据来进行模型微调,从而获得更强的 Sora 模型,后期Open AI 可能会推出100% AI 生成内容的 TikTok平台。 其他人发布的视频数据 Open AI 应该是无法获取的,字节也不 ...

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人