北大发起复现Sora:框架已搭 袁粒、田永鸿领衔 AnimateDiff大神响应

北大发起复现Sora:框架已搭 袁粒、田永鸿领衔 AnimateDiff大神响应 为什么发起这项计划?因为资源有限,团队希望集结开源社区的力量,尽可能完成复现。消息一出,就有人北大校友兼AnimateDiff贡献者等人即刻响应:还有人表示可以提供高质量数据集:所以,“国产版Sora”的新挑战者,就这么来了?计划细节,已完成3个初步功能首先,来看目前公布的技术细节即团队打算如何复现Sora。整体框架上,它将由三部分组成:Video VQ-VAEDenoising Diffusion Transformer(去噪扩散型Transformer)Condition Encoder(条件编码器)这和Sora技术报告的内容基本差不多。对于Sora视频的可变长宽比,团队通过参考上海AI Lab刚刚提出的FiT(Flexible Vision Transformer for Diffusion Model,即“升级版DiT”)实施一种动态掩码策略,从而在并行批量训练的同时保持灵活的长宽比。具体来说, 我们将高分辨率视频在保持长宽比的同时下采样至最长边为256像素, 然后在右侧和底部用零填充至一致的256x256分辨率。这样便于videovae以批量编码视频, 以及便于扩散模型使用注意力掩码对批量潜变量进行去噪。对于可变分辨率,团队则表示在推理过程中,尽管在固定的256x256分辨率上进行训练,,但使用位置插值来实现可变分辨率采样。具体而言:我们将可变分辨率噪声潜变量的位置索引从[0, seq_length-1]下调到[0, 255],以使其与预训练范围对齐。这种调整使得基于注意力的扩散模型能够处理更高分辨率的序列。对于可变时长,则使用VideoGPT中的Video VQ-VAE,,将视频压缩至潜在空间,支持这一功能。同时,还要在扩展空间位置插值至时空维度,实现对可变时长视频的处理。在此,主页也先给了两个demo,分别是10s视频重建和18s重建,分辨率分别为256x256和196x196:这三个功能都已经初步实现。相关的训练代码也已经在对应的仓库上上线:成员介绍,目前的训练是在8个A100-80G上进行的(明显还远远不够),输入大小为8帧 128 128,大概需要1周时间才能生成类似ucf(一个视频数据集)的效果。而从目前已经列出的9项to do事项来看,除了可变长宽比、可变分辨率和可变时长,动态掩码输入、在embeddings上添加类条件这两个任务也已完成。未来要做的包括:采样脚本添加位置插值在更高分辨率上微调Video-VQVAE合并SiT纳入更多条件以及最重要的:使用更多数据和更多GPU进行训练袁粒、田永鸿领衔严格来说,Open Sora计划是北大-兔展AIGC联合实验室联合发起的。领衔者之一袁粒,为北大信息工程学院助理教授、博导,去年获得福布斯30岁以下亚洲杰出人物榜单。他分别在中国科学技术大学和新加坡国立大学获得本科和博士学位。研究方向为深度视觉神经网络设计和多模态机器学习,代表性一作论文之一T2T-ViT被引次数1000+。领衔者之二田永鸿,北京大学博雅特聘教授,博士生导师,IEEE、ACM等fellow,兼任鹏城实验室(深圳)人工智能研究中心副主任,曾任中科院计算所助理研究员、美国明尼苏达大学访问教授。从目前公布的团队名单来看,其余成员大部分为硕士生。包括袁粒课题组的林彬,他曾多次以一作或共同一作身份参与了“北大版多模态MoE模型”MoE-LLaVA、Video-LLaVA和多模态对齐框架LanguageBind(入选ICLR 2024)等工作。兔展这边,参与者包括兔展智能创始人、董事长兼CEO董少灵(他也是北大校友)。完整名单:谁能率先发布中文版Sora?相比ChatGPT,引爆文生视频赛道的Sora研发难度显然更大。谁能夺得Sora中文版的首发权,目前留给公众的是一个大大的问号。在这之中,传闻最大的是字节。今年2月初,张楠辞去抖音集团CEO一职,转而负责剪映,就引发了外界猜测。很快,一款叫做“Boximator”的视频生成模型浮出水面。它基于PixelDance和ModelScope两个之前的成果上完成训练。不过,很快字节就辟谣这不是“字节版sora”:它的效果离Sora还有很大差距,暂时不具备落地条件,并且至少还需2-3个月才能上线demo给大家测试。但,风声并未就此平息。去年11月,字节剪映悄悄上线了一个AI绘画工具“Dreamina”,大家的评价还不错。现在,又有消息称:Dreamina即将上线类似sora的视频生成功能(目前在内测)。不知道,这一次是不是字节亮出的大招呢?Open Sora项目主页: ... PC版: 手机版:

相关推荐

封面图片

全球首个类Sora开源复现方案来了 全面公开所有训练细节和模型权重

全球首个类Sora开源复现方案来了 全面公开所有训练细节和模型权重 还能用航拍视角,展现悬崖海岸边,海水拍打着岩石的画面。亦或是延时摄影下的浩瀚星空。自Sora发布以来,由于效果惊艳但技术细节寥寥,揭秘、复现Sora成为了开发社区最热议话题之一。比如Colossal-AI团队推出成本直降46%的Sora训练推理复现流程。短短两周时间后,该团队再次发布最新进展,复现类Sora方案,并将技术方案及详细上手教程在GitHub上免费开源。那么问题来了,复现Sora如何实现?Open-Sora 开源地址: Transformer (DiT) 。它以采用DiT架构的高质量开源文生图模型PixArt-α为基座,在此基础上引入时间注意力层,将其扩展到视频数据上。具体来看,整个架构包括一个预训练好的VAE,一个文本编码器和一个利用空间-时间注意力机制的STDiT (Spatial Temporal Diffusion Transformer)模型。其中,STDiT 每层的结构如下图所示。它采用串行的方式在二维的空间注意力模块上叠加一维的时间注意力模块,用于建模时序关系。在时间注意力模块之后,交叉注意力模块用于对齐文本的语意。与全注意力机制相比,这样的结构大大降低了训练和推理开销。与同样使用空间-时间注意力机制的 Latte模型相比,STDiT 可以更好的利用已经预训练好的图像 DiT 的权重,从而在视频数据上继续训练。STDiT结构示意图整个模型的训练和推理流程如下。据了解,在训练阶段首先采用预训练好的Variational Autoencoder (VAE)的编码器将视频数据进行压缩,然后在压缩之后的潜在空间中与文本嵌入(text embedding)一起训练STDiT扩散模型。在推理阶段,从VAE的潜在空间中随机采样出一个高斯噪声,与提示词嵌入(prompt embedding)一起输入到STDiT中,得到去噪之后的特征,最后输入到VAE的解码器,解码得到视频。模型训练流程训练复现方案在训练复现部分,Open-Sora参考了Stable Video Diffusion (SVD)。一共分为3个阶段:大规模图像预训练;大规模视频预训练;高质量视频数据微调。每个阶段都会基于前一个阶段的权重继续训练。相比于从零开始单阶段训练,多阶段训练通过逐步扩展数据,更高效地达成高质量视频生成的目标。训练方案三阶段第一阶段是大规模图像预训练。团队利用互联网上丰富的图像数据和文生图技术,先训练出一个高质量的文生图模型,将该模型作为下一阶段视频预训练的初始化权重。同时,由于目前没有高质量的时空VAE,他们采用Stable Diffusion预训练好的图像VAE。这样不仅能保障初始模型的优越性能,还能显著降低视频预训练的整体成本。第二阶段是大规模视频预训练。这一阶段主要增加模型的泛化能力,有效掌握视频的时间序列关联。它需要使用大量视频数据训练,并且保障视频素材的多样性。同时,第二阶段的模型在第一阶段文生图模型的基础上加入了时序注意力模块,用于学习视频中的时序关系。其余模块与第一阶段保持一致,并加载第一阶段权重作为初始化,同时初始化时序注意力模块输出为零,以达到更高效更快速的收敛。Colossal-AI团队使用了PixArt-alpha的开源权重作为第二阶段STDiT模型的初始化,以及采用了T5模型作为文本编码器。他们采用了256x256的小分辨率进行预训练,进一步增加了收敛速度,降低训练成本。Open-Sora生成效果(提示词:水中世界的镜头,镜头中一只海龟在珊瑚礁间悠然游弋)第三阶段是高质量视频数据微调。据介绍,这一阶段能显著提升模型的生成质量。使用的数据规模比上一阶段降低一个量级,但是视频的时长、分辨率和质量都更高。通过这种方式进行微调,能实现视频生成从短到长、从低分辨率到高分辨率、从低保真度到高保真度的高效扩展。值得一提的是,Colossal-AI还详细透露了每阶段的资源使用情况。在Open-Sora的复现流程中,他们使用了64块H800进行训练。第二阶段的训练量一共是 2808 GPU hours,约合7000美元,第三阶段的训练量是1920 GPU hours,大约4500美元。经过初步估算,整个训练方案成功把Open-Sora复现流程控制在了1万美元左右。数据预处理为了进一步降低Sora复现的门槛和复杂度,Colossal-AI团队在代码仓库中还提供了便捷的视频数据预处理脚本,让大家可以轻松启动Sora复现预训练。包括公开视频数据集下载、长视频根据镜头连续性分割为短视频片段、使用开源大语言模型LLaVA生成精细的提示词。他们提供的批量视频标题生成代码可以用两卡 3 秒标注一个视频,并且质量接近于 GPT-4V。最终得到的视频/文本对可直接用于训练。借助他们在GitHub上提供的开源代码,可以轻松地在自己的数据集上快速生成训练所需的视频/文本对,显著降低了启动Sora复现项目的技术门槛和前期准备。高效训练加持除此之外,Colossal-AI团队还提供了训练加速方案。通过算子优化和混合并行等高效训练策略,在处理64帧、512x512分辨率视频的训练中,实现了1.55倍的加速效果。同时,得益于Colossal-AI的异构内存管理系统,在单台服务器上(8H800)可以无阻碍地进行1分钟的1080p高清视频训练任务。而且团队还发现STDiT模型架构在训练时也展现出卓越的高效性。和采用全注意力机制的DiT相比,随着帧数的增加,STDiT实现了高达5倍的加速效果,这在处理长视频序列等现实任务中尤为关键。最后,团队还放出了更多Open-Sora的生成效果。团队和量子位透露,他们将长期更新优化Open-Sora的相关解决方案和动态。未来将使用更多视频训练数据,以生成更高质量、更长时长的视频内容,并支持多分辨率特性。实际应用方面,团队透露将推进在电影、游戏、广告等领域落地。感兴趣的开发者们,可访问GitHub项目了解更多~Open-Sora 开源地址: Scalable Diffusion Models with Transformers[2] PixArt-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis[3] Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets[4] Latte: Latent Diffusion Transformer for Video Generation[5] ... PC版: 手机版:

封面图片

奥尔特曼选取网友提示词 用OpenAI新款大模型Sora生成视频

奥尔特曼选取网友提示词 用OpenAI新款大模型Sora生成视频 一位时髦女士漫步在东京街头,周围是温暖闪烁的霓虹灯和动感的城市标志。一名年约三十的宇航员戴着红色针织摩托头盔展开冒险之旅,电影预告片呈现其穿梭于蓝天白云与盐湖沙漠之间的精彩瞬间,独特的电影风格、采用35毫米胶片拍摄,色彩鲜艳。竖屏超近景视角下,这只蜥蜴细节拉满:OpenAI表示,公司正在教授人工智能理解和模拟运动中的物理世界,目标是训练出能够帮助人们解决需要与现实世界互动的问题的模型。在此,隆重推出文本到视频模型Sora。Sora可以生成长达一分钟的视频,同时保证视觉质量和符合用户提示的要求。OpenAI创始人兼CEOSam Altman(奥尔特曼)太会玩了,让网友评论回复Prompt(大语言模型中的提示词),他选一些用Sora生成视频。截至发稿,奥尔特曼连发多条根据网友提示词生成的视频,包括不同动物在海上进行自行车比赛、发布自制面疙瘩烹饪教学视频的祖母、两只金毛犬在山顶做播客、日落时分火星上进行的一场无人机竞赛等。但这些视频时长为9秒至17秒不等。技术层面,Sora采用扩散模型(diffusion probabilistic models)技术,基于Transformer架构,但为了解决Transformer架构核心组件注意力机制的长文本、高分辨率图像处理等问题,扩散模型用可扩展性更强的状态空间模型(SSM)主干替代了传统架构中的注意力机制,可以使用更少的算力,生成高分辨率图像。此前Midjourney与Stable Diffusion的图像与视频生成器同样基于扩散模型。同时,Sora也存在一定的技术不成熟之处。OpenAI表示,Sora可能难以准确模拟复杂场景的物理原理,可能无法理解因果关系,可能混淆提示的空间细节,可能难以精确描述随着时间推移发生的事件,如遵循特定的相机轨迹等。根据OpenAI关于Sora的技术报告《Video generation models as world simulators》(以下简称报告),跟大语言模型一样,Sora也有涌现的模拟能力。OpenAI方面在技术报告中表示,并未将Sora单纯视作视频模型,而是将视频生成模型作为“世界模拟器”,不仅可以在不同设备的原生宽高比直接创建内容,而且展示了一些有趣的模拟能力,如3D一致性、长期一致性和对象持久性等。目前Sora能够生成一分钟的高保真视频,OpenAI认为扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。报告指出,OpenAI研究了在视频数据上进行大规模训练的生成模型。具体而言,联合训练了文本条件扩散模型,该模型可处理不同持续时间、分辨率和长宽比的视频和图像。OpenAI利用了一种基于时空补丁的视频和图像潜在代码的变压器架构。最大的模型Sora能够生成一分钟的高保真视频。结果表明,扩展视频生成模型是构建通用物理世界模拟器的有前途的途径。报告重点介绍了OpenAI将各类型视觉数据转化为统一表示的方法,这种方法能够对生成模型进行大规模训练,并对Sora的能力与局限进行定性评估。先前的大量研究已经探索了使用多种方法对视频数据进行生成建模,包括循环网络、生成对抗网络、自回归转换器和扩散模型。这些研究往往只关注于狭窄类别的视觉数据、较短的视频或固定大小的视频。而Sora是一个通用的视觉数据模型,它能够生成跨越不同时长、纵横比和分辨率的视频和图像,甚至能够生成长达一分钟的高清视频。OpenAI从大型语言模型中汲取灵感,这些模型通过训练互联网规模的数据获得通用能力。LLM范式的成功在一定程度上得益于令牌的使用,这些令牌巧妙地统一了文本的不同模式代码、数学和各种自然语言。在这项工作中,OpenAI考虑视觉数据的生成模型如何继承这些优势。虽然LLM有文本令牌,但Sora有视觉补丁。之前已经证明,补丁是视觉数据模型的有效表示。补丁是一种高度可扩展且有效的表示,可用于在多种类型的视频和图像上训练生成模型。Sora支持采样多种分辨率视频,包括1920x1080p的宽屏视频、1080x1920的竖屏视频以及介于两者之间的所有分辨率。这使得Sora能够直接以原生纵横比为不同的设备创建内容。同时,它还允许在生成全分辨率内容之前,使用相同的模型快速制作较小尺寸的内容原型。 ... PC版: 手机版:

封面图片

字节发布ResAdapter,可以解决SD生成超大图片和非训练分辨率图片时的肢体异常以及画面崩坏问题。

字节发布ResAdapter,可以解决SD生成超大图片和非训练分辨率图片时的肢体异常以及画面崩坏问题。 同时可以与现有的IPadapter以及Controlnet模型兼容。 项目简介: 近期,像Stable Diffusion这样的文本到图像模型和DreamBooth、LoRA等个性化技术的发展,让我们能够创造出既高质量又充满创意的图像。但这些技术在生成超出它们训练时所用分辨率的图像时,往往会受到限制。 为了突破这一难题,我们推出了一种新型工具分辨率适配器(ResAdapter)。 它是一种专门为扩散模型(比如Stable Diffusion和个性化模型)设计的适配器,能够生成任何分辨率和长宽比的图像。与其它多分辨率生成方法不同,ResAdapter能直接生成动态分辨率的图像,而不是在后期处理中调整静态分辨率的图像。这种方法使得图像处理变得更加高效,避免了重复的去噪步骤和复杂的后期处理流程,显著缩短了处理时间。 在不包含任何训练领域风格信息的情况下,ResAdapter利用广泛的分辨率先验,即使只有0.5M的容量,也能为个性化扩散模型生成不同于原训练领域的高分辨率图像,同时保持原有风格。 大量实验显示,ResAdapter在提高分辨率方面与扩散模型配合得天衣无缝。此外,更多的实验表明,ResAdapter可以与ControlNet、IP-Adapter和LCM-LoRA等其他模块兼容,适用于创建不同分辨率的图像,也可以整合进如ElasticDiffusion这样的多分辨率模型中,高效生成更高清晰度的图像。 项目页面:

封面图片

这个可能比较重要,北大发布一个新的图像生成框架VAR。

这个可能比较重要,北大发布一个新的图像生成框架VAR。 VAR首次使GPT风格的AR模型在图像生成上超越了Diffusion transformer。 同时展现出了与大语言模型观察到的类似Scaling laws的规律。 在ImageNet 256x256基准上,VAR将FID从18.65大幅提升到1.80,IS从80.4提升到356.4,推理速度提高了20倍。 详细介绍: 视觉自回归模型(VAR)是一种新的图像生成范式,它将自回归学习重新定义为从粗到细的"下一尺度预测"或"下一分辨率预测",有别于标准的光栅扫描"下一token预测"。 这种简单直观的方法让自回归transformer能够快速学习视觉分布并具有良好的泛化能力: VAR首次使GPT风格的AR模型在图像生成上超越了扩散transformer。 在ImageNet 256x256基准上,VAR将FID从18.65大幅提升到1.80,IS从80.4提升到356.4,推理速度提高了20倍。 实证验证了VAR在多个维度包括图像质量、推理速度、数据效率和可扩展性上都优于Diffusion Transformer。 随着VAR模型的扩大,它展现出了与大语言模型观察到的类似幂律缩放规律,线性相关系数接近-0.998,有力证明了这一点。 VAR进一步展示了在下游任务如图像修复、外推和编辑上的零样本泛化能力。 这些结果表明,VAR初步模拟了大语言模型的两个重要特性:缩放规律和零样本泛化。 研究人员已经公开了所有模型和代码,以促进AR/VAR模型在视觉生成和统一学习中的探索。 VAR算法为计算机视觉中的自回归算法设计提供了新的见解,有望推动这一领域的进一步发展。 项目地址: Demo 地址,生成速度真的非常快: 模型下载:

封面图片

终于有普通人可以立刻使用的类 Sora 视频生成工具了!#ai# #sora#

终于有普通人可以立刻使用的类 Sora 视频生成工具了!#ai视频# #sora# 海外产品 viva 发布了首个开放给全部用户使用的 Sora 同架构视频生成模型,而且现阶段免费。 支持文本生成视频、图片生成视频以及 4K 分辨率放大功能,另外也支持提示词的自动优化。 文生视频单次可以生成一条 5 秒的视频,图生视频是 4 秒视频 我测试了一下应该是目前运动幅度最大的视频生成模型,同时图像分辨率也是现在可以用的视频生成产品中最大的。文生视频的效果比图生视频要更好,同时如果要是用的话建议把运动幅度调到 20 左右比较合适。 viva 优势领域就是可以生成比较好的竖屏视频,目前很多视频模型的演示都是横屏视频,竖屏的表现并不好,但是短视频又是视频内容的大头,所以竖屏视频的生成质量是个很重要的指标。 但是一致性有一部分测试中保持的不是很好,同时没有表现出 Sora 那样强大的物理特性模拟以及 3D 一致性。跟谷歌 刚发布的 Veo 模型对比来看在写实内容上其实以及差不多了。 下面是 viva 的视频演示,15 秒开始有相同的提示词跟谷歌刚发布的 Veo 模型的对比。 这里体验 viva:

封面图片

OpenAI Sora:“原始版”世界模拟器 我们离黑客帝国还有多远?

OpenAI Sora:“原始版”世界模拟器 我们离黑客帝国还有多远? Sora:大力出奇迹的产物刚刚发布Gemini 1.5 Pro的谷歌,没有尝到半点甜头。刚刚官宣更新几个小时,OpenAI就拿着Sora来炸场,和Gemini有关的消息,基本都被埋在了铺天盖地的Sora新闻流里。据一些观察人士推测,OpenAI可能早在去年3月就已经完成了Sora的开发,所以才能在公关战中稳稳占据主动权。Sora到底优秀在哪里?简单来说,它是一个“大力出奇迹”的产物。Sora结合了扩散模型(DALL-E3)和转换器架构(ChatGPT)。通过这种组合,该模型可以像ChatGPT处理文本一样处理视频(即图像帧的时间序列)。最令人印象深刻的特点是它能够逼真地模拟物理世界(OpenAI 将其描述为 “新兴的模拟能力”)。在此之前,还没有任何文字视频模型能与之相媲美。例如,Sora“可以在单个生成的视频中创建多个镜头,准确地体现人物和视觉风格”。它可以制作长达1分钟的视频,但你也可以随心所欲地制作短视频。可以制作不同分辨率的竖版、方形和水平视频。而且计算量越高,视频质量也会越高。AI科学家、创业者贾佳亚在社交媒体上表示:Sora基于视频的三维结构分解压缩,用不同分辨率,不同时长,不同场景的各类视频大量训练diffusion model。在学术界连VIT的256*256的分辨率都没法改的情况下,Sora直接用上了高清以及更大的分辨率,这没几千上万张H100都不敢想象如何开始这个项目。Sora能够学习真实世界的物理规则OpenAI表示,Sora不仅能理解提示中出现的风格、场景、角色、物体和概念等,还能理解“这些事物在物理世界中是如何存在的”。Sora通过海量视频,以梯度下降的方式在神经参数中隐含地学习物理引擎。Sora是一个可学习的模拟器,或称“世界模型”。亦即,Sora可能已经学会了一套隐含的物理规则,为视频生成过程提供信息。毫无疑问,这是AI理解世界的关键一步。OpenAI在博文的最后写道:Sora是能够理解和模拟现实世界的模型的基础,我们相信这种能力将成为实现AGI的重要里程碑。在OpenAI的Dalle-3图像生成器所使用的扩散模型版本和GPT-4基于变换器的引擎的支持下,Sora不仅能按照提示要求制作视频,而且还能显示出对电影技术的熟练掌握。这就是讲故事的天赋。在另一部根据“渲染华丽的珊瑚礁纸艺世界,到处都是五颜六色的鱼和海洋生物”的提示制作的视频中。该项目的另一位研究员Bill Peebles指出,Sora通过拍摄角度和时机的选择,创造了一种叙事的推动力:实际上有多个镜头的变化这些变化不是拼接在一起的,而是由模型一次性生成的。我们没有告诉它要这么做,它只是自动这么做了。Sora不仅能根据文本制作图像和视频,或将图像和视频转换为其他视频,而且还能以通用、可扩展的方式完成这些工作,这一点与竞争对手不同。这种通用性和可扩展性促使人们预测人工智能将颠覆好莱坞和整个电影制作。考虑到进步的速度,想象一下几个月后人工智能模型能够制作出长达5或10分钟的多场景、多角色复杂视频并不是什么疯狂的事情。目前Sora还在接受安全检查和对抗性测试,没有正式发布。OpenAI希望从“世界各地的政策制定者、教育工作者和艺术家”那里收集反馈意见。他们还在开发一种检测分类器来识别Sora制作的视频,并研究如何防止错误信息。要想让文字视频威胁到真正的电影制作,恐怕还需要很长一段时间。你不可能把120个一分钟长的Sora片段拼接成一部连贯的电影,因为模型不会以完全相同的方式对提示做出反应,因此无法确保输出视频的连续性。但时间限制并不妨碍Sora和类似的软件颠覆TikTok、Reel和其他短视频平台的生产方法。一位研究者表示:要制作一部专业电影,你需要大量昂贵的设备,这种模式将使在社交媒体上制作视频的普通人有能力制作出非常高质量的内容。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人