刚发布就被对标Sora，这个国产模型来头这么大？

刚发布就被对标Sora，这个国产模型来头这么大？要不是右下角有水印，我还差点以为是 Sora 的视频又上新了。所以这次的主角不是 Sora ，也不是各位差友熟知的 Pika 、 Runway 那几个 Sora 竞品，而是初出茅庐的国产视频大模型 Vidu 。咱看到的那些视频，就是前几天， Vidu 在中关村论坛的人工智能主题日上公布的。它最长能生成16 秒，一句 “ 木头玩具船在地毯上航行 ” 的提示词，就能生成下面这长长的一段，一镜到底的丝滑程度，怕是路过的谋子导演看了都会点赞。Sora 号称能真实模拟物理世界的拿手戏， Vidu 照样也能实现。让它生成一段 “ 汽车加速驶过森林里乡间小路 ” 的视频，像是树林缝隙透过的阳光，后轮扬起的灰尘，都很符合咱们的日常认知。而且 Vidu 的想象力比咱人还要丰富，画室里的一艘船驶向镜头的场景，它分分钟就能给 “ 拍 ” 出来，看这效果，不知道该有多少动效师瑟瑟发抖了。甚至在某些提示词下， Vidu 的理解能力比 Sora 还强，比如 “ 镜头绕着电视旋转 ” 的提示词， Sora 压根儿就没 get 到旋转的意思，反而是 Vidu 能轻松理解。有一说一，在看完 Vidu 的这些视频后，是真觉得它是目前市面上，唯一一个能在画面效果上和 Sora 拼一拼的模型。虽然现在16 秒的 Vidu 在时长上还比不上60 秒的 Sora ，但它的进步也确实是肉眼可见的快，据极客公园消息，上个月， Vidu 在内部只能生成 8 秒的视频，上上上个月，还只能生成 4 秒的视频。反正媒体们都把 Vidu 比作是 “ Sora 级视频大模型 ” ，网友们也都在评论区喊话催他们赶紧开放内测。不过这里面更好奇的是，咱之前压根儿都没听说过 Vidu ，怎么突然平地一声雷，搞出了这么大的阵仗？我们也顺藤摸瓜找了找资料，发现 Vidu 身上，值得说道的东西还挺多，甚至仔细咂摸下，还能从 Sora 身上找出点 Vidu 的影子来（可没说反）。它背后是一家名叫生数科技的公司，别看这个公司才刚满一周岁，但它可是在娘胎里就开始攒劲儿了。因为它的亲妈，是清华系AI 企业瑞莱智慧，背后的研究团队，几乎全是这里面的人。而在成立生数科技之前，团队就已经把视频大模型研究得很深入了。尤其是在图像生成这块很火的扩散（ Diffusion ）模型，他们算是业内第一批研究这个模型的，整出来的论文也在 ICML 、 NeurIPS 、 ICLR 各种顶会发了个遍。正是因为有这么好的底子，早在2022 年 9 月的时候，团队就找到了做 Vidu 的灵感，就是下面这篇论文。让 AI 帮咱解读了下，大概的思路就是，扩散模型在生成图像这块挺强，而大语言模型里用的 Transformer 有个规模（ Scale ）效应，参数堆得越多，性能就越好。团队就想着，能不能把这两个的优点结合一下，整个融合架构，提升图像生成的质量。于是他们转头把扩散模型里面的 U-Net 给换成 Transformer ，还起了个名字叫 U-ViT （ Vision Transformers ）。结果试下来发现这么一结合还真有用，光是相同大小的 U-ViT ，性能就比 U-Net 强了。那好嘛，既然这条路走得通，他们也顺势把技术路线定在了 U-ViT 上。然鹅……在团队悄悄酝酿 Vidu 的时候，大洋彼岸的UC 伯克利的一个研究，却让 OpenAI 的 Sora 捷足先登了。就在清华小分队提交论文的两个月后， UC 伯克利也在预印平台 ArXiv 上提交他们的论文了，一样说要把 Transformers 揉在扩散模型里面，只不过名字起的更直白了点，叫DiT （ Diffusion Transformers ）。看着是不是挺眼熟，没错， OpenAI 的 Sora 模型，用的就是伯克利的 DiT 技术路线。但因为清华小分队早发了两个月，当年的计算机视觉顶会 CVPR 2023 还以“ 缺乏创新 ” 的由头，拒了 Sora 的 DiT ，收录了 U-ViT 。而且早在 2023 年年初的时候，清华小分队还用 U-ViT ，训练出了一个近 10 亿参数量的开源大模型 UniDiffuser 。算是第一个用行动证明了，融合架构也遵守 Scaling Law 这一套规则，也就是说随着计算量、参数量越来越大，模型的性能就会随指数级上升。而这个 Scaling Law ，同样也是 Sora 这么强的秘密武器。所以照这么来盘算，Sora 其实还得叫 Vidu 一声祖师爷才对……但现实世界却是， DiT 被 OpenAI 带着一路飞升。清华小分队呢，计算资源没 OpenAI 那么到位，也没 ChatGPT 这种珠玉在前，总之就是啥啥都不完善，他们只能慢慢来，先做图像、 3D 模型，等有家底儿了，再去做视频。好在他们身上还是有点实力在的，稳扎稳打慢慢也赶上来了。去年 3 月，清华小分队们成立了生数科技后，就在马不停蹄地搞自家的产品，现在图像生成和 3D 模型生成大伙儿都能免费用了。并且靠着这两个产品，刚满一周年，它就攒了好几亿的家底。像是成立 3 个月的时候，就完成了一波近亿级的天使轮投资，上个月，又完成了新一轮的数亿元融资。参与投资的，也都是智谱 AI 、 BV 百度风投等等业内大佬。反正看这波架势， Vidu 还真有可能成为国内的黑马，去对标 OpenAI 的 Sora 。不过生数科技那边，倒是觉得只把 Vidu 看作国产版的 Sora ，实在是有点缺乏想象力了，因为他们给 Vidu 的定位，可不仅仅是个视频模型，而是图、文、视频全都要，只不过现在视频暂时是重点。当然了，好听话谁都会说，能不能搞出来，咱还得实打实地看成品。已经去排了队，等拿到内测资格，再跟大伙儿同步一波…… ... PC版：手机版：

在Telegram中查看

相关推荐

生数科技联合清华发布视频大模型Vidu 全面对标Sora

生数科技联合清华发布视频大模型Vidu 全面对标Sora 据介绍，Vidu不仅能够模拟真实物理世界，还拥有丰富想象力，具备多镜头生成、时空一致性高等特点。Vidu是自Sora发布之后全球率先取得重大突破的视频大模型，性能全面对标国际顶尖水平，并在加速迭代提升中。与Sora一致，Vidu能够根据提供的文本描述直接生成长达16秒的高质量视频。值得一提的是，短片中的片段都是从头到尾连续生成，没有明显的插帧现象，从这种“一镜到底”的表现能够推测出，Vidu采用的是“一步到位”的生成方式，与Sora一样，文本到视频的转换是直接且连续的，在底层算法实现上是基于单一模型完全端到端生成，不涉及中间的插帧和其他多步骤的处理。 ... PC版：手机版：

腾讯混元文生图模型开源采用Sora同架构

腾讯混元文生图模型开源采用Sora同架构 5月14日，腾讯宣布旗下混元文生图模型升级并开源，参数量15亿，目前已在平台及上发布，包含模型权重、推理代码、模型算法等完整模型，企业与个人开发者可免费商用。该模型支持文生图功能且可作为视频等多模态视觉生成的基础。随着腾讯混元文生图大模型入局，采用 DiT 架构的大模型玩家再增一名。OpenAI 的视频生成模型 Sora 也采用 DiT 架构。腾讯方面介绍，混元文生图大模型是业内首个中文原生的 DiT 架构文生图模型，综合指标在文生图算法中排名第三。

中国团队发布视频大模型Vidu 称达到Sora级别

中国团队发布视频大模型Vidu 称达到Sora级别中国科研团队在一场未来人工智能先锋论坛上，发布视频大模型Vidu，称它达到了Sora级别。据中国新闻网报道，清华大学联合生数科技星期六（4月27日）在2024中关村论坛年会未来人工智能先锋论坛上，正式发布中国首个长时长、高一致性、高动态性视频大模型Vidu。该模型采用团队原创的Diffusion与Transformer融合的核心技术架构U-ViT，支持一键生成长达16秒、分辨率高达1080P的高清视频内容。据介绍，Vidu不仅能够模拟真实物理世界，还拥有丰富想象力，具备多镜头生成、时空一致性高等特点。Vidu是自Sora今年2月发布推出之后全球率先取得重大突破的视频大模型，性能全面对标国际顶尖水平，并在加速迭代提升中。清华大学教授、生数科技首席科学家朱军在论坛上说，与Sora一致，Vidu能够根据提供的文本描述直接生成长达16秒的高质量视频。除在时长方面的突破外，Vidu在视频效果方面实现显著提升，主要体现在模拟真实物理世界、多镜头语言、时空一致性高、理解中国元素等方面。朱军说：“值得一提的是，Vidu采用的是‘一步到位’的生成方式。Vidu的命名不仅谐音‘Vedio’，也蕴含‘We do’的寓意。” 2024年4月28日 9:04 PM

快手发布国内首个效果对标Sora的视频生成大模型“可灵”，现已开放邀测

快手发布国内首个效果对标Sora的视频生成大模型“可灵”，现已开放邀测近日，快手“可灵”视频生成大模型官网正式上线。据介绍，可灵大模型为快手AI团队自研，基于快手在视频技术方面的多年积累，采用Sora相似的技术路线，结合多项自研技术创新，效果对标Sora。可灵大模型不仅具备强大的概念组合能力和想象力，还能够生成大幅度的合理运动、模拟物理世界特性。其生成的视频分辨率高达1080p，时长最高可达2分钟（帧率30fps），且支持自由的宽高比。目前，可灵大模型已在快影App开放邀测体验。（36氪）标签: #快手 #Sora #可灵频道: @GodlyNews1 投稿: @GodlyNewsBot

这是构成Sora基础之一的Diffusion Transformer论文作者关于Sora的一些猜测和技术解释。

这是构成Sora基础之一的Diffusion Transformer论文作者关于Sora的一些猜测和技术解释。这个老哥可能是除了这篇论文的另一个作者（现在在Open AI工作）之外最懂Diffusion Transformer的人了，非常值得关注。有趣的是这篇论文曾经在2023年的计算机视觉会议(CVR2023)上因“缺少创新性”而遭到拒绝，短短一年时间就变成了Sora这怪物模型的理论基础。 -正文开始- 以下是我对Sora技术报告的解读，其中包含了一些可能并不准确的猜测。首先，我非常感谢团队分享了极为有价值的见解和设计决策Sora确实令人惊叹，它将彻底改变视频生成领域。我们目前所了解到的情况如下：架构：Sora基于我们的扩散变换器（Diffusion Transformer，简称DiT）模型构建，该模型已发表在2023年国际计算机视觉会议（ICCV 2023）上。简单来说，它是一个结合了变换器（Transformer）主干的扩散模型： DiT = [变分自编码器（VAE）编码器 + 视觉变换器（ViT）+ 去噪扩散概率模型（DDPM）+ VAE解码器]。根据报告，这个模型似乎没有太多额外的复杂设计。 “视频压缩网络”：这看起来就像是一个在原始视频数据上训练的变分自编码器（VAE）。在实现良好的时间一致性方面，标记化（Tokenization）可能扮演着关键角色。顺便提一下，VAE本质上是一个卷积网络，所以从技术上说，DiT实际上是一个混合模型。 ;) 当Bill和我参与DiT项目时，我们并未专注于创新（详见我之前的推特），而是将重点放在了两个方面：简洁性和可扩展性。这些优先事项带来的不仅仅是概念上的优势。简洁性代表着灵活性。关于标准的视觉变换器（ViT），人们常忽视的一个亮点是，它让模型在处理输入数据时变得更加灵活。例如，在遮蔽自编码器（MAE）中，ViT帮助我们只处理可见的区块，忽略被遮蔽的部分。同样，Sora可以通过在适当大小的网格中排列随机初始化的区块来控制生成视频的尺寸。而UNet并不直接提供这种灵活性。猜测：Sora可能还使用了Google的Patch n’ Pack（NaViT）技术，使DiT能够适应不同的分辨率、持续时间和长宽比。

▎ Sora近期，OpenAI再次扔出一枚深水炸弹，发布了首个文生视频模型Sora。

▎ Sora 近期，OpenAI再次扔出一枚深水炸弹，发布了首个文生视频模型Sora。据介绍，Sora可以直接输出长达60秒的视频，并且包含高度细致的背景、复杂的多角度镜头，以及富有情感的多个角色。 Sora不仅能准确呈现细节，还能理解物体在物理世界中的存在，并生成具有丰富情感的角色。该模型还可以根据提示、静止图像甚至填补现有视频中的缺失帧来生成视频。 AI视频要变天了！（视频示例来自： https://soravideos.media/ ）标签: #新闻 #慢讯频道: @me888888888888 群组：https://t.me/imbbbbbbbbbbb 合作&推广：@imbbbbb_bot@imbbbbbbbb 消息怕错过？请及时收藏频道并开启推送！

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人