北大发起复现Sora:框架已搭 袁粒、田永鸿领衔 AnimateDiff大神响应

北大发起复现Sora:框架已搭袁粒、田永鸿领衔AnimateDiff大神响应为什么发起这项计划?因为资源有限,团队希望集结开源社区的力量,尽可能完成复现。消息一出,就有人北大校友兼AnimateDiff贡献者等人即刻响应:还有人表示可以提供高质量数据集:所以,“国产版Sora”的新挑战者,就这么来了?计划细节,已完成3个初步功能首先,来看目前公布的技术细节——即团队打算如何复现Sora。整体框架上,它将由三部分组成:VideoVQ-VAEDenoisingDiffusionTransformer(去噪扩散型Transformer)ConditionEncoder(条件编码器)这和Sora技术报告的内容基本差不多。对于Sora视频的可变长宽比,团队通过参考上海AILab刚刚提出的FiT(FlexibleVisionTransformerforDiffusionModel,即“升级版DiT”)实施一种动态掩码策略,从而在并行批量训练的同时保持灵活的长宽比。具体来说,我们将高分辨率视频在保持长宽比的同时下采样至最长边为256像素,然后在右侧和底部用零填充至一致的256x256分辨率。这样便于videovae以批量编码视频,以及便于扩散模型使用注意力掩码对批量潜变量进行去噪。对于可变分辨率,团队则表示在推理过程中,尽管在固定的256x256分辨率上进行训练,,但使用位置插值来实现可变分辨率采样。具体而言:我们将可变分辨率噪声潜变量的位置索引从[0,seq_length-1]下调到[0,255],以使其与预训练范围对齐。这种调整使得基于注意力的扩散模型能够处理更高分辨率的序列。对于可变时长,则使用VideoGPT中的VideoVQ-VAE,,将视频压缩至潜在空间,支持这一功能。同时,还要在扩展空间位置插值至时空维度,实现对可变时长视频的处理。在此,主页也先给了两个demo,分别是10s视频重建和18s重建,分辨率分别为256x256和196x196:这三个功能都已经初步实现。相关的训练代码也已经在对应的仓库上上线:成员介绍,目前的训练是在8个A100-80G上进行的(明显还远远不够),输入大小为8帧128128,大概需要1周时间才能生成类似ucf(一个视频数据集)的效果。而从目前已经列出的9项todo事项来看,除了可变长宽比、可变分辨率和可变时长,动态掩码输入、在embeddings上添加类条件这两个任务也已完成。未来要做的包括:采样脚本添加位置插值在更高分辨率上微调Video-VQVAE合并SiT纳入更多条件以及最重要的:使用更多数据和更多GPU进行训练袁粒、田永鸿领衔严格来说,OpenSora计划是北大-兔展AIGC联合实验室联合发起的。领衔者之一袁粒,为北大信息工程学院助理教授、博导,去年获得福布斯30岁以下亚洲杰出人物榜单。他分别在中国科学技术大学和新加坡国立大学获得本科和博士学位。研究方向为深度视觉神经网络设计和多模态机器学习,代表性一作论文之一T2T-ViT被引次数1000+。领衔者之二田永鸿,北京大学博雅特聘教授,博士生导师,IEEE、ACM等fellow,兼任鹏城实验室(深圳)人工智能研究中心副主任,曾任中科院计算所助理研究员、美国明尼苏达大学访问教授。从目前公布的团队名单来看,其余成员大部分为硕士生。包括袁粒课题组的林彬,他曾多次以一作或共同一作身份参与了“北大版多模态MoE模型”MoE-LLaVA、Video-LLaVA和多模态对齐框架LanguageBind(入选ICLR2024)等工作。兔展这边,参与者包括兔展智能创始人、董事长兼CEO董少灵(他也是北大校友)。完整名单:谁能率先发布中文版Sora?相比ChatGPT,引爆文生视频赛道的Sora研发难度显然更大。谁能夺得Sora中文版的首发权,目前留给公众的是一个大大的问号。在这之中,传闻最大的是字节。今年2月初,张楠辞去抖音集团CEO一职,转而负责剪映,就引发了外界猜测。很快,一款叫做“Boximator”的视频生成模型浮出水面。它基于PixelDance和ModelScope两个之前的成果上完成训练。不过,很快字节就辟谣这不是“字节版sora”:它的效果离Sora还有很大差距,暂时不具备落地条件,并且至少还需2-3个月才能上线demo给大家测试。但,风声并未就此平息。去年11月,字节剪映悄悄上线了一个AI绘画工具“Dreamina”,大家的评价还不错。现在,又有消息称:Dreamina即将上线类似sora的视频生成功能(目前在内测)。不知道,这一次是不是字节亮出的大招呢?OpenSora项目主页:https://pku-yuangroup.github.io/Open-Sora-Plan/blog_cn.htmlhttps://github.com/PKU-YuanGroup/Open-Sora-Plan...PC版:https://www.cnbeta.com.tw/articles/soft/1422170.htm手机版:https://m.cnbeta.com.tw/view/1422170.htm

相关推荐

封面图片

北京大学Yuangroup团队发起了一个 Open-Sora计划,旨在复现OpenAI 的Sora模型。

北京大学Yuangroup团队发起了一个Open-Sora计划,旨在复现OpenAI的Sora模型。通过视频VQ-VAE、DenoisingDiffusionTransformer和条件编码器等技术组件,来实现Sora模型的功能。它由以下组成部分组成。1.VideoVQ-VAE.2.DenoisingDiffusionTransformer.3.ConditionEncoder.

封面图片

这个可能比较重要,北大发布一个新的图像生成框架VAR。

这个可能比较重要,北大发布一个新的图像生成框架VAR。VAR首次使GPT风格的AR模型在图像生成上超越了Diffusiontransformer。同时展现出了与大语言模型观察到的类似Scalinglaws的规律。在ImageNet256x256基准上,VAR将FID从18.65大幅提升到1.80,IS从80.4提升到356.4,推理速度提高了20倍。详细介绍:视觉自回归模型(VAR)是一种新的图像生成范式,它将自回归学习重新定义为从粗到细的"下一尺度预测"或"下一分辨率预测",有别于标准的光栅扫描"下一token预测"。这种简单直观的方法让自回归transformer能够快速学习视觉分布并具有良好的泛化能力:VAR首次使GPT风格的AR模型在图像生成上超越了扩散transformer。在ImageNet256x256基准上,VAR将FID从18.65大幅提升到1.80,IS从80.4提升到356.4,推理速度提高了20倍。实证验证了VAR在多个维度包括图像质量、推理速度、数据效率和可扩展性上都优于DiffusionTransformer。随着VAR模型的扩大,它展现出了与大语言模型观察到的类似幂律缩放规律,线性相关系数接近-0.998,有力证明了这一点。VAR进一步展示了在下游任务如图像修复、外推和编辑上的零样本泛化能力。这些结果表明,VAR初步模拟了大语言模型的两个重要特性:缩放规律和零样本泛化。研究人员已经公开了所有模型和代码,以促进AR/VAR模型在视觉生成和统一学习中的探索。VAR算法为计算机视觉中的自回归算法设计提供了新的见解,有望推动这一领域的进一步发展。项目地址:https://github.com/FoundationVision/VARDemo地址,生成速度真的非常快:https://var.vision/demo模型下载:https://huggingface.co/FoundationVision/var/tree/main

封面图片

OpenAI Sora:“原始版”世界模拟器 我们离黑客帝国还有多远?

OpenAISora:“原始版”世界模拟器我们离黑客帝国还有多远?Sora:大力出奇迹的产物刚刚发布Gemini1.5Pro的谷歌,没有尝到半点甜头。刚刚官宣更新几个小时,OpenAI就拿着Sora来炸场,和Gemini有关的消息,基本都被埋在了铺天盖地的Sora新闻流里。据一些观察人士推测,OpenAI可能早在去年3月就已经完成了Sora的开发,所以才能在公关战中稳稳占据主动权。Sora到底优秀在哪里?简单来说,它是一个“大力出奇迹”的产物。Sora结合了扩散模型(DALL-E3)和转换器架构(ChatGPT)。通过这种组合,该模型可以像ChatGPT处理文本一样处理视频(即图像帧的时间序列)。最令人印象深刻的特点是它能够逼真地模拟物理世界(OpenAI将其描述为“新兴的模拟能力”)。在此之前,还没有任何文字视频模型能与之相媲美。例如,Sora“可以在单个生成的视频中创建多个镜头,准确地体现人物和视觉风格”。它可以制作长达1分钟的视频,但你也可以随心所欲地制作短视频。可以制作不同分辨率的竖版、方形和水平视频。而且计算量越高,视频质量也会越高。AI科学家、创业者贾佳亚在社交媒体上表示:Sora基于视频的三维结构分解压缩,用不同分辨率,不同时长,不同场景的各类视频大量训练diffusionmodel。在学术界连VIT的256*256的分辨率都没法改的情况下,Sora直接用上了高清以及更大的分辨率,这没几千上万张H100都不敢想象如何开始这个项目。Sora能够学习真实世界的物理规则OpenAI表示,Sora不仅能理解提示中出现的风格、场景、角色、物体和概念等,还能理解“这些事物在物理世界中是如何存在的”。Sora通过海量视频,以梯度下降的方式在神经参数中隐含地学习物理引擎。Sora是一个可学习的模拟器,或称“世界模型”。亦即,Sora可能已经学会了一套隐含的物理规则,为视频生成过程提供信息。毫无疑问,这是AI理解世界的关键一步。OpenAI在博文的最后写道:Sora是能够理解和模拟现实世界的模型的基础,我们相信这种能力将成为实现AGI的重要里程碑。在OpenAI的Dalle-3图像生成器所使用的扩散模型版本和GPT-4基于变换器的引擎的支持下,Sora不仅能按照提示要求制作视频,而且还能显示出对电影技术的熟练掌握。这就是讲故事的天赋。在另一部根据“渲染华丽的珊瑚礁纸艺世界,到处都是五颜六色的鱼和海洋生物”的提示制作的视频中。该项目的另一位研究员BillPeebles指出,Sora通过拍摄角度和时机的选择,创造了一种叙事的推动力:实际上有多个镜头的变化——这些变化不是拼接在一起的,而是由模型一次性生成的。我们没有告诉它要这么做,它只是自动这么做了。Sora不仅能根据文本制作图像和视频,或将图像和视频转换为其他视频,而且还能以通用、可扩展的方式完成这些工作,这一点与竞争对手不同。这种通用性和可扩展性促使人们预测人工智能将颠覆好莱坞和整个电影制作。考虑到进步的速度,想象一下几个月后人工智能模型能够制作出长达5或10分钟的多场景、多角色复杂视频并不是什么疯狂的事情。目前Sora还在接受安全检查和对抗性测试,没有正式发布。OpenAI希望从“世界各地的政策制定者、教育工作者和艺术家”那里收集反馈意见。他们还在开发一种检测分类器来识别Sora制作的视频,并研究如何防止错误信息。要想让文字视频威胁到真正的电影制作,恐怕还需要很长一段时间。你不可能把120个一分钟长的Sora片段拼接成一部连贯的电影,因为模型不会以完全相同的方式对提示做出反应,因此无法确保输出视频的连续性。但时间限制并不妨碍Sora和类似的软件颠覆TikTok、Reel和其他短视频平台的生产方法。一位研究者表示:要制作一部专业电影,你需要大量昂贵的设备,这种模式将使在社交媒体上制作视频的普通人有能力制作出非常高质量的内容。...PC版:https://www.cnbeta.com.tw/articles/soft/1418735.htm手机版:https://m.cnbeta.com.tw/view/1418735.htm

封面图片

终于有普通人可以立刻使用的类 Sora 视频生成工具了!#ai# #sora#

终于有普通人可以立刻使用的类Sora视频生成工具了!#ai视频##sora#海外产品viva发布了首个开放给全部用户使用的Sora同架构视频生成模型,而且现阶段免费。支持文本生成视频、图片生成视频以及4K分辨率放大功能,另外也支持提示词的自动优化。文生视频单次可以生成一条5秒的视频,图生视频是4秒视频我测试了一下应该是目前运动幅度最大的视频生成模型,同时图像分辨率也是现在可以用的视频生成产品中最大的。文生视频的效果比图生视频要更好,同时如果要是用的话建议把运动幅度调到20左右比较合适。viva优势领域就是可以生成比较好的竖屏视频,目前很多视频模型的演示都是横屏视频,竖屏的表现并不好,但是短视频又是视频内容的大头,所以竖屏视频的生成质量是个很重要的指标。但是一致性有一部分测试中保持的不是很好,同时没有表现出Sora那样强大的物理特性模拟以及3D一致性。跟谷歌刚发布的Veo模型对比来看在写实内容上其实以及差不多了。下面是viva的视频演示,15秒开始有相同的提示词跟谷歌刚发布的Veo模型的对比。这里体验viva:https://vivago.ai/video?type=1

封面图片

Sora的局限性:

对sora比较深入的分析从电影和游戏行业的视角出发。指出了Sora在模拟物理现象和创意内容生成方面的局限性,也强调了其在多模态学习和生成能力上的潜力。以下是意见的总结:Sora的局限性:Sora虽然能够模拟物理现象,但其物理理解仍然脆弱,无法完全替代专业的物理引擎。在物体交互和物理规则的理解上存在不足,可能导致超现实的结果。Sora的生成内容依赖于大量数据的压缩和提炼,而非完全的物理模拟。Sora的创新与潜力:通过将视频内容压缩到隐空间,Sora有效地解决了处理高分辨率视频所需的计算资源问题。其技术可能影响实时影像资料的处理和分析,如直播和监控视频数据。Sora的应用可能为AI模型训练提供新路径,特别是在多模态数据和复杂现实世界情境的理解方面。对未来的展望:Sora技术的发展可能需要在提升算力和优化算法效率之间找到平衡。尽管Sora不会取代游戏引擎开发者或影视特效师,但它可以作为创意预览阶段的工具,帮助普通人进行民主化创作。Sora的多模态能力可能通过3D引擎模型进一步发展,为虚拟世界的构建提供自动化支持。这个见解强调AI在创意和模拟物理现象方面的潜力,同时也提醒我们AI技术仍有待发展,特别是在理解和模拟复杂物理世界方面。

封面图片

快手版 Sora「可灵」公布即测试

快手版Sora「可灵」公布即测试可灵支持生成长达2分钟的30帧视频,分辨率最高1080p,自由定制宽高比。与Sora不同的是,可灵发布即上线,公众现在可以直接在快影APP(AI创作-AI视频生成)中申请体验。可灵整体框架采用了类Sora的DiT结构,用Transformer代替了传统扩散模型中基于卷积网络的U-Net。快手大模型团队还自研了一款3D时空联合注意力模块和3DVAE网络,以实现更好的时空运动建模与更高效的隐空间编/解码。关注频道@ZaiHuaPd频道爆料@ZaiHuabot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人