这个可能比较重要,北大发布一个新的图像生成框架VAR。

这个可能比较重要,北大发布一个新的图像生成框架VAR。 VAR首次使GPT风格的AR模型在图像生成上超越了Diffusion transformer。 同时展现出了与大语言模型观察到的类似Scaling laws的规律。 在ImageNet 256x256基准上,VAR将FID从18.65大幅提升到1.80,IS从80.4提升到356.4,推理速度提高了20倍。 详细介绍: 视觉自回归模型(VAR)是一种新的图像生成范式,它将自回归学习重新定义为从粗到细的"下一尺度预测"或"下一分辨率预测",有别于标准的光栅扫描"下一token预测"。 这种简单直观的方法让自回归transformer能够快速学习视觉分布并具有良好的泛化能力: VAR首次使GPT风格的AR模型在图像生成上超越了扩散transformer。 在ImageNet 256x256基准上,VAR将FID从18.65大幅提升到1.80,IS从80.4提升到356.4,推理速度提高了20倍。 实证验证了VAR在多个维度包括图像质量、推理速度、数据效率和可扩展性上都优于Diffusion Transformer。 随着VAR模型的扩大,它展现出了与大语言模型观察到的类似幂律缩放规律,线性相关系数接近-0.998,有力证明了这一点。 VAR进一步展示了在下游任务如图像修复、外推和编辑上的零样本泛化能力。 这些结果表明,VAR初步模拟了大语言模型的两个重要特性:缩放规律和零样本泛化。 研究人员已经公开了所有模型和代码,以促进AR/VAR模型在视觉生成和统一学习中的探索。 VAR算法为计算机视觉中的自回归算法设计提供了新的见解,有望推动这一领域的进一步发展。 项目地址: Demo 地址,生成速度真的非常快: 模型下载:

相关推荐

封面图片

华为发布 DiT 架构的图像生成模型,可以直出 4K 分辨率图像。

华为发布 DiT 架构的图像生成模型,可以直出 4K 分辨率图像。 论文简介: 我们引入了 PixArt-\Sigma,一个能够直接生成 4K 分辨率图像的 Diffusion Transformer (Diffusion Transformer, DiT) 模型。相比其前身 PixArt-\alpha,PixArt-\Sigma 有了显著进步,提供了明显更高保真度的图像,并改进了与文本提示的一致性。 PixArt-\Sigma 的一个关键特点是其训练效率。借助 PixArt-\alpha 的基础预训练,它通过合并更高质量的数据,从"较弱"的基线演变为"较强"的模型,我们将这个过程称为"弱到强训练"。PixArt-\Sigma 的进步主要体现在两个方面: 高质量训练数据:PixArt-\Sigma 结合了更高质量的图像数据,与更精确和详细的图像标题配对。 高效的 Token 压缩:我们在 DiT 框架内提出了一个新的注意力模块,可以压缩键 (Key) 和值 (Value),显著提高效率,并促进超高分辨率图像生成。 得益于这些改进,PixArt-\Sigma 以显著较小的模型规模 (6 亿参数) 实现了优于现有文本到图像扩散模型 (如 SDXL (26 亿参数) 和 SD Cascade (51 亿参数)) 的图像质量和用户提示遵从能力。 此外,PixArt-\Sigma 生成 4K 图像的能力支持创建高分辨率海报和壁纸,有效地增强了电影和游戏等行业中高质量视觉内容的制作。 项目地址:

封面图片

又一个Transformer架构的图像生成模型,FiT 专门为了生成不瘦分辨率和宽高比限制的图像制作的架构。

又一个Transformer架构的图像生成模型,FiT 专门为了生成不瘦分辨率和宽高比限制的图像制作的架构。 在模型的训练和推理都不需要专门适配对应的图片比例和分辨率。看演示的图像模型的美学表现也还行。 -项目简介- 推出了一种名为灵活视觉变换器(Flexible Vision Transformer,简称FiT)的新型变换器架构。它专门设计用于创造没有分辨率和宽高比限制的图像。不同于传统的将图像看作固定分辨率网格的方法,FiT将图像视为一系列可变大小的图像块( Token )。 这种独特的处理方式使得FiT能够在训练和应用过程中灵活适应不同的图像宽高比,提高了对不同分辨率的适应能力,并避免了由于裁剪图像而产生的偏差。FiT还通过精心设计的网络结构和一些不需要额外训练的技术,能够在图像分辨率的扩展方面展现出极大的灵活性。 通过一系列全面的实验,FiT证明了其在处理各种不同分辨率的图像方面具有卓越的性能,无论是在其训练的分辨率范围内还是超出这一范围,都表现出色。 项目地址:

封面图片

Stability AI产量很高啊,推出了一个新的 AI 图像生成模型Stable Cascade,还会发布对应的微调、Cont

Stability AI产量很高啊,推出了一个新的 AI 图像生成模型Stable Cascade,还会发布对应的微调、ControlNet 和 LoRA 训练的脚本。 这个模型基于Würstchen架构,可以显著降低模型训练的算力成本,比 SD2.1 的算力成本降低了 10 倍左右。另外推理速度会比现有的 SD 模型快一倍左右。 更多功能: 除了标准的文本到图像生成之外,Stable Cascade 还可以执行图像变化和图像到图像生成。 会跟随模型一起发布的 Controlnet: 局部重绘:输入与文本提示附带的蒙版配对的图像。该模型根据提供的文本提示填充图像的遮罩部分。 Canny Edge:通过跟踪输入到模型的现有图像的边缘来生成新图像。该测试也可以从草图进行扩展。 2x超分辨率:也可用于C阶段生成的潜在空间。 了解更多:

封面图片

Stability AI 发布草图到图像生成 AI 工具

Stability AI 发布草图到图像生成 AI 工具 Stability AI Ltd.今天推出了Stable Doodle,进一步丰富了其生成式人工智能工具库。 该公司表示,这是一款草图到图像工具,可以将简单的草图转换为更动态的图像,它的目标受众是从创意专业人士到业余艺术家的所有人。 该公司表示,Stable Doodle 可供专业人士和新手使用,并且不需要熟悉人工智能工具。用户只需勾画出基本草图并上传,模型就会根据用户的选择将其转换为专业的卡通风格动画、折纸模型甚至逼真的图像。

封面图片

Stability AI发布最新图像生成模型Stable Diffusion XL 1.0

Stability AI发布最新图像生成模型Stable Diffusion XL 1.0 今天,Stability AI 宣布推出 Stable Diffusion XL 1.0,这是该公司迄今为止描述为“最先进”的文本到图像模型。Stable Diffusion XL 1.0 可在上以开源形式使用,并提供给 Stability 的和消费者应用程序和 。Stability 声称,与其前代产品相比,Stable Diffusion XL 1.0 提供了“更生动”和“更准确”的颜色,更好的对比度、阴影和照明效果。 在接受采访时,Stability AI 的应用机器学习负责人Joe Penna 指出,Stable Diffusion XL 1.0 包含 35亿个参数,可以“在几秒钟内”生成多种长宽比的 100万像素分辨率的完整图像。“参数”是模型从训练数据中学习到的部分,基本上定义了模型在解决问题上的技能水平。 上一代稳定扩散模型稳定扩散 XL 0.9 也可以生成更高分辨率的图像,但需要更多的计算能力。 、

封面图片

北大发起复现Sora:框架已搭 袁粒、田永鸿领衔 AnimateDiff大神响应

北大发起复现Sora:框架已搭 袁粒、田永鸿领衔 AnimateDiff大神响应 为什么发起这项计划?因为资源有限,团队希望集结开源社区的力量,尽可能完成复现。消息一出,就有人北大校友兼AnimateDiff贡献者等人即刻响应:还有人表示可以提供高质量数据集:所以,“国产版Sora”的新挑战者,就这么来了?计划细节,已完成3个初步功能首先,来看目前公布的技术细节即团队打算如何复现Sora。整体框架上,它将由三部分组成:Video VQ-VAEDenoising Diffusion Transformer(去噪扩散型Transformer)Condition Encoder(条件编码器)这和Sora技术报告的内容基本差不多。对于Sora视频的可变长宽比,团队通过参考上海AI Lab刚刚提出的FiT(Flexible Vision Transformer for Diffusion Model,即“升级版DiT”)实施一种动态掩码策略,从而在并行批量训练的同时保持灵活的长宽比。具体来说, 我们将高分辨率视频在保持长宽比的同时下采样至最长边为256像素, 然后在右侧和底部用零填充至一致的256x256分辨率。这样便于videovae以批量编码视频, 以及便于扩散模型使用注意力掩码对批量潜变量进行去噪。对于可变分辨率,团队则表示在推理过程中,尽管在固定的256x256分辨率上进行训练,,但使用位置插值来实现可变分辨率采样。具体而言:我们将可变分辨率噪声潜变量的位置索引从[0, seq_length-1]下调到[0, 255],以使其与预训练范围对齐。这种调整使得基于注意力的扩散模型能够处理更高分辨率的序列。对于可变时长,则使用VideoGPT中的Video VQ-VAE,,将视频压缩至潜在空间,支持这一功能。同时,还要在扩展空间位置插值至时空维度,实现对可变时长视频的处理。在此,主页也先给了两个demo,分别是10s视频重建和18s重建,分辨率分别为256x256和196x196:这三个功能都已经初步实现。相关的训练代码也已经在对应的仓库上上线:成员介绍,目前的训练是在8个A100-80G上进行的(明显还远远不够),输入大小为8帧 128 128,大概需要1周时间才能生成类似ucf(一个视频数据集)的效果。而从目前已经列出的9项to do事项来看,除了可变长宽比、可变分辨率和可变时长,动态掩码输入、在embeddings上添加类条件这两个任务也已完成。未来要做的包括:采样脚本添加位置插值在更高分辨率上微调Video-VQVAE合并SiT纳入更多条件以及最重要的:使用更多数据和更多GPU进行训练袁粒、田永鸿领衔严格来说,Open Sora计划是北大-兔展AIGC联合实验室联合发起的。领衔者之一袁粒,为北大信息工程学院助理教授、博导,去年获得福布斯30岁以下亚洲杰出人物榜单。他分别在中国科学技术大学和新加坡国立大学获得本科和博士学位。研究方向为深度视觉神经网络设计和多模态机器学习,代表性一作论文之一T2T-ViT被引次数1000+。领衔者之二田永鸿,北京大学博雅特聘教授,博士生导师,IEEE、ACM等fellow,兼任鹏城实验室(深圳)人工智能研究中心副主任,曾任中科院计算所助理研究员、美国明尼苏达大学访问教授。从目前公布的团队名单来看,其余成员大部分为硕士生。包括袁粒课题组的林彬,他曾多次以一作或共同一作身份参与了“北大版多模态MoE模型”MoE-LLaVA、Video-LLaVA和多模态对齐框架LanguageBind(入选ICLR 2024)等工作。兔展这边,参与者包括兔展智能创始人、董事长兼CEO董少灵(他也是北大校友)。完整名单:谁能率先发布中文版Sora?相比ChatGPT,引爆文生视频赛道的Sora研发难度显然更大。谁能夺得Sora中文版的首发权,目前留给公众的是一个大大的问号。在这之中,传闻最大的是字节。今年2月初,张楠辞去抖音集团CEO一职,转而负责剪映,就引发了外界猜测。很快,一款叫做“Boximator”的视频生成模型浮出水面。它基于PixelDance和ModelScope两个之前的成果上完成训练。不过,很快字节就辟谣这不是“字节版sora”:它的效果离Sora还有很大差距,暂时不具备落地条件,并且至少还需2-3个月才能上线demo给大家测试。但,风声并未就此平息。去年11月,字节剪映悄悄上线了一个AI绘画工具“Dreamina”,大家的评价还不错。现在,又有消息称:Dreamina即将上线类似sora的视频生成功能(目前在内测)。不知道,这一次是不是字节亮出的大招呢?Open Sora项目主页: ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人