这个可能比较重要,北大发布一个新的图像生成框架VAR。

这个可能比较重要,北大发布一个新的图像生成框架VAR。VAR首次使GPT风格的AR模型在图像生成上超越了Diffusiontransformer。同时展现出了与大语言模型观察到的类似Scalinglaws的规律。在ImageNet256x256基准上,VAR将FID从18.65大幅提升到1.80,IS从80.4提升到356.4,推理速度提高了20倍。详细介绍:视觉自回归模型(VAR)是一种新的图像生成范式,它将自回归学习重新定义为从粗到细的"下一尺度预测"或"下一分辨率预测",有别于标准的光栅扫描"下一token预测"。这种简单直观的方法让自回归transformer能够快速学习视觉分布并具有良好的泛化能力:VAR首次使GPT风格的AR模型在图像生成上超越了扩散transformer。在ImageNet256x256基准上,VAR将FID从18.65大幅提升到1.80,IS从80.4提升到356.4,推理速度提高了20倍。实证验证了VAR在多个维度包括图像质量、推理速度、数据效率和可扩展性上都优于DiffusionTransformer。随着VAR模型的扩大,它展现出了与大语言模型观察到的类似幂律缩放规律,线性相关系数接近-0.998,有力证明了这一点。VAR进一步展示了在下游任务如图像修复、外推和编辑上的零样本泛化能力。这些结果表明,VAR初步模拟了大语言模型的两个重要特性:缩放规律和零样本泛化。研究人员已经公开了所有模型和代码,以促进AR/VAR模型在视觉生成和统一学习中的探索。VAR算法为计算机视觉中的自回归算法设计提供了新的见解,有望推动这一领域的进一步发展。项目地址:https://github.com/FoundationVision/VARDemo地址,生成速度真的非常快:https://var.vision/demo模型下载:https://huggingface.co/FoundationVision/var/tree/main

相关推荐

封面图片

华为发布 DiT 架构的图像生成模型,可以直出 4K 分辨率图像。#ai画图#

华为发布DiT架构的图像生成模型,可以直出4K分辨率图像。论文简介:我们引入了PixArt-\Sigma,一个能够直接生成4K分辨率图像的DiffusionTransformer(DiffusionTransformer,DiT)模型。相比其前身PixArt-\alpha,PixArt-\Sigma有了显著进步,提供了明显更高保真度的图像,并改进了与文本提示的一致性。PixArt-\Sigma的一个关键特点是其训练效率。借助PixArt-\alpha的基础预训练,它通过合并更高质量的数据,从"较弱"的基线演变为"较强"的模型,我们将这个过程称为"弱到强训练"。PixArt-\Sigma的进步主要体现在两个方面:高质量训练数据:PixArt-\Sigma结合了更高质量的图像数据,与更精确和详细的图像标题配对。高效的Token压缩:我们在DiT框架内提出了一个新的注意力模块,可以压缩键(Key)和值(Value),显著提高效率,并促进超高分辨率图像生成。得益于这些改进,PixArt-\Sigma以显著较小的模型规模(6亿参数)实现了优于现有文本到图像扩散模型(如SDXL(26亿参数)和SDCascade(51亿参数))的图像质量和用户提示遵从能力。此外,PixArt-\Sigma生成4K图像的能力支持创建高分辨率海报和壁纸,有效地增强了电影和游戏等行业中高质量视觉内容的制作。项目地址:

封面图片

图像生成模型 Stable Diffusion XL 1.0 开源发布

图像生成模型StableDiffusionXL1.0开源发布SDXL1.0的性能5倍优于SD1.5(开源社区主流),是开源世界最大参数的图像模型,也是StabilityAI最新&最先进的模型。现可通过Github、HuggingFace、API、AWS、Clipdrop、DreamStudio直接访问。SDXL1.0拥有3.5B参数的基础模型(可单独使用)和6.6B参数的专家混合管道(多了一个单独执行最终去噪的精炼模型),精炼模型可以为基础模型的输出添加更准确的颜色、更高的对比度和更精细的细节。微调SDXL1.0的图像需求量也急剧下降,现在只需5到10张图像就可以快速微调出一个专门生成特定人物、事物的模型。投稿:@ZaiHuaBot频道:@TestFlightCN

封面图片

【Adobe发布名为“Firefly”的图像生成人工智能模型】

【Adobe发布名为“Firefly”的图像生成人工智能模型】2023年03月22日11点03分3月22日消息,Adobe公司发布名为“Firefly”的图像生成人工智能模型,目前主要专注于图像生成和文本效果,如文字生成矢量/笔刷/模板、根据自定义风格生成图像、指定纵横比扩展图像、据3D模型生成图像、为黑白图像上色、使用画笔修改图像并用文字描述的风格进行填充等。未来,Firefly将被实装在Adobe全家桶中。该模型的学习数据来源于Adobe旗下AdobeStock数据库、经授权的作品以及版权已过期的公共内容。据Adobe表示,用户的内容不会被用来训练Firefly。

封面图片

Google推出新图像控制方式 可在StableDiffusion图像生成中保证内容特征一致性

Google推出新图像控制方式可在StableDiffusion图像生成中保证内容特征一致性论文地址:https://arxiv.org/pdf/2311.10093.pdf这项技术的实现方法包括三个步骤。首先是身份聚类,通过生成一系列图像,并将它们嵌入到语义空间中,使用聚类算法将这些图像分组,每个组代表一种可能的角色身份。这个过程旨在识别出一组视觉上一致的图像,从而确定角色的主要视觉特征。接下来是身份提取,一旦确定了一组具有高内聚性的图像,就会在这些图像上训练模型,以提取出更一致的角色身份。这意味着模型将学习到特定角色的关键视觉特征,以便在未来的生成中更准确地重现这些特征。...PC版:https://www.cnbeta.com.tw/articles/soft/1398313.htm手机版:https://m.cnbeta.com.tw/view/1398313.htm

封面图片

Stability AI发布最新图像生成模型Stable Diffusion XL 1.0

StabilityAI发布最新图像生成模型StableDiffusionXL1.0今天,StabilityAI宣布推出StableDiffusionXL1.0,这是该公司迄今为止描述为“最先进”的文本到图像模型。StableDiffusionXL1.0可在上以开源形式使用,并提供给Stability的和消费者应用程序和。Stability声称,与其前代产品相比,StableDiffusionXL1.0提供了“更生动”和“更准确”的颜色,更好的对比度、阴影和照明效果。在接受采访时,StabilityAI的应用机器学习负责人JoePenna指出,StableDiffusionXL1.0包含35亿个参数,可以“在几秒钟内”生成多种长宽比的100万像素分辨率的完整图像。“参数”是模型从训练数据中学习到的部分,基本上定义了模型在解决问题上的技能水平。上一代稳定扩散模型稳定扩散XL0.9也可以生成更高分辨率的图像,但需要更多的计算能力。——、

封面图片

Stability AI 发布草图到图像生成 AI 工具

StabilityAI发布草图到图像生成AI工具StabilityAILtd.今天推出了StableDoodle,进一步丰富了其生成式人工智能工具库。该公司表示,这是一款草图到图像工具,可以将简单的草图转换为更动态的图像,它的目标受众是从创意专业人士到业余艺术家的所有人。该公司表示,StableDoodle可供专业人士和新手使用,并且不需要熟悉人工智能工具。用户只需勾画出基本草图并上传,模型就会根据用户的选择将其转换为专业的卡通风格动画、折纸模型甚至逼真的图像。https://clipdrop.co/stable-doodle——

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人