NVIDIA 正在设法大幅提高生成 AI 图像和视频的速度

NVIDIA 正在设法大幅提高生成 AI 图像和视频的速度 Nvidia 多伦多人工智能实验室的研究人员正在解决生成图像和视频的时间问题,本周在该公司的 GTC 2024 会议上,他们概述了这项工作的一些成果,展示了旨在实现这一目标的进步更快(因此更经济)生成“噪音”明显更少的图像和更详细的 3D 图像,将时间从几周或几个月缩短为几天或几分钟。 对于图像生成,研究人员着眼于加速扩散模型的工作,该模型用于解决生成高保真度高分辨率图像的棘手问题,并且是 OpenAI 的 Dall-E3 等文本到图像模型的基础谷歌的图像。从本质上讲,它们消除了“噪声”图像原始场景内容中不存在的伪影,但这些伪影可能使图像看起来模糊、像素化、颗粒状或以其他方式表现不佳。

相关推荐

封面图片

麻省理工大学携手 Adobe 演示 DMD AI 技术:每秒可生成 20 幅图像

麻省理工大学携手 Adobe 演示 DMD AI 技术:每秒可生成 20 幅图像 主流文生图模型固然已经能生成非常逼真的图片,但通常渲染时间非常缓慢。麻省理工大学携手 Adobe 公司近日研发了 DMD 方法,在尽量不影响图像质量的情况下,加快图像生成速度。DMD 技术的全称是 Distribution Matching Distillation,将多步扩散模型简化为一步图像生成解决方案。 团队表示:“我们的核心理念是训练两个扩散(diffusion)模型,不仅能预估目标真实分布(real distribution)的得分函数,还能估计假分布(fake distribution)的得分函数。” 研究人员称,他们的模型可以在现代 GPU 硬件上每秒生成 20 幅图像。在上面的视频短片重点介绍了 DMD 与 Stable Diffusion 1.5 相比的图像生成能力。标清每幅图像 Stable Diffusion 1.5 需要 1.4 秒,而 DMD 只需几分之一秒就能生成类似的图像。来源 , 频道:@kejiqu 群组:@kejiquchat

封面图片

麻省理工学院研究人员开发出对图像质量影响最小的超快速图像生成方法

麻省理工学院研究人员开发出对图像质量影响最小的超快速图像生成方法 图像生成人工智能通常采用一种称为扩散的过程,通过几个采样步骤来完善视觉输出,以达到最终希望"逼真"的结果。研究人员表示,扩散模型可以生成高质量的图像,但需要数十次前向传递。Adobe 研究中心和麻省理工学院的专家们正在引入一种名为"分布匹配蒸馏"(DMD)的技术。这一程序将多步扩散模型简化为一步图像生成解决方案。由此产生的模型可以生成与Stable Diffusion 1.5 等"传统"扩散模型相当的图像,但速度要快上几个数量级。"我们的核心理念是训练两个扩散模型,不仅能估计目标真实分布的得分函数,还能估计假分布的得分函数。"研究人员称,他们的模型可以在现代 GPU 硬件上每秒生成 20 幅图像。上面的视频短片重点介绍了 DMD 与 Stable Diffusion 1.5 相比的图像生成能力。标清每幅图像需要 1.4 秒,而 DMD 只需几分之一秒就能生成类似的图像。虽然在质量和性能之间有所权衡,但最终结果仍在普通用户可接受的范围之内。该团队发表的关于新渲染方法的文章展示了使用 DMD 生成图像结果的更多示例。它比较了稳定扩散和 DMD,同时提供了生成图像的重要文字提示。主题包括通过虚拟数码单反相机镜头取景的一只狗、多洛米蒂山脉、森林中一只神奇的鹿、一只鹦鹉宝宝的 3D 渲染、独角兽、胡须、汽车、猫,甚至更多的狗。分布匹配蒸馏法并不是第一种用于生成人工智能图像的单步方法。Stability AI 公司开发了一种被称为逆向扩散蒸馏(ADD)的技术,用于实时生成 100 万像素的图像。该公司通过 ADD 训练其 SDXL Turbo 模型,在单个 NVIDIA A100 AI GPU 加速器上实现了仅 207 毫秒的图像生成速度。Stability 的 ADD 采用了与麻省理工学院的 DMD 类似的方法。 ... PC版: 手机版:

封面图片

:阿里巴巴开发的高保真图像到视频生成开源模型 可以生成符合真实世界运动状态的

:阿里巴巴开发的高保真图像到视频生成开源模型 可以生成符合真实世界运动状态的视频 主要功能: 1、高保真视频生成:AtomoVideo可以从单一静态图像生成高保真的视频序列,视频中的内容不仅与原始图片保持高度一致,而且动作自然流畅。 2、动作强度和连贯性:AtomoVideo生成的视频具有自然流畅的动作和良好的时间连贯性。视频中的运动看起来既自然又符合逻辑,没有突兀或不自然的过渡。 为了让视频里的动作看起来自然,AtomoVideo引入了时间卷积和时间注意力模块,这些模块专门处理视频帧之间的时间关系,帮助模型预测下一帧画面的变化,从而实现连贯的视频动作。AtomoVideo会特别处理视频的时间信息,让图片中的物体像在真实世界那样随时间移动和变化。 3、个性化适配:AtomoVideo能够与不同的个性化文本到图像(T2I)模型兼容,无需进行特定调整,这让它能够广泛适用于各种场景。AtomoVideo还能结合文字描述来生成视频。比如,你给它一张静态的海边图片,并告诉它“海浪轻轻拍打沙滩”,它就能根据这个描述生成一段海浪真的拍打沙滩的视频。

封面图片

:提高任何大小图像的分辨率

:提高任何大小图像的分辨率 该项目使用了一个预训练的扩散模型,这个模型已经学习了如何生成高分辨率的图像。 通过这种方式,他们的方法可以从一个低分辨率图像生成一个高分辨率图像,而不需要任何关于图像内容的先验知识。非常适合用于真实世界的图像超分辨率任务。 1、使用一个名为"时间感知编码器"的工具,这个工具可将低分辨率图像转换为一个特征表示。这个特征表示包含了图像的重要信息,但是它的大小是固定的,不受图像分辨率的影响 在不改变预训练的合成模型的情况下,实现有前景的恢复结果,从而保留生成的先验并最小化训练成本。 2、使用一个名为"特征包装模块"的工具,这个工具可以将特征表示转换为一个高分辨率图像。这个工具可以通过调整一个参数来平衡生成图像的质量和保真度。 3、使用一个名为"渐进式聚合采样策略"的工具,这个工具可以生成任意大小的高分辨率图像。这个工具通过在不同的尺度上应用扩散模型,然后将结果聚合在一起,来生成高分辨率图像。

封面图片

ML Blocks:无代码AI图像生成和分析工作流平台

ML Blocks:无代码AI图像生成和分析工作流平台 它提供了一个拖放式的界面,允许用户轻松地创建复杂的图像处理工作流,无需编写任何代码。 你只根据需要将不同的功能块(如图像编辑功能和AI模型)组合在一起,即可实现个性化的图像自动化处理。 该工具主要解决在电商领域遇到的批量处理图片问题。 ML Blocks允许用户创建可以处理多步骤图像生成或分析管道的自定义图像处理工作流,使用基于图的工作流。用户只需按顺序连接几个块,如去背景 -> 裁剪 -> AI上采样,就可以在几分钟内得到完整的图像处理工作流。 主要功能: 生成图像:使用 Stable Diffusion 等 AI 模型生成或绘制图像。 编辑图像:提供编辑功能,如裁剪、调整大小、重新着色等,来修改图像。 分析图像:利用检测或分割模型从图像中提取数据。 实际应用示例:基于提示模糊图像特定区域:传统方法需要使用DINO模型生成提示中提到的对象周围的边界框,然后使用像Segment Anything这样的分割模型生成这些区域的遮罩,最后使用Pillow或OpenCV库编写模糊功能来模糊遮罩区域。 而使用ML Blocks,用户只需将分割、遮罩和模糊块连接起来,就能在2分钟内完成工作流程。 你还可以自动生成博客帖子或推文的横幅图像、根据提示移除图像中的对象、去除背景并用AI创建新背景等多种工作流程。 |

封面图片

研究发现一般人已经很难区分真实和AI生成的图像

研究发现一般人已经很难区分真实和AI生成的图像 滑铁卢大学研究人员的一项新研究发现,人们比预期更难区分谁是真人,谁是人工生成的。滑铁卢大学的研究为 260 名参与者提供了 20 张没有标签的图片:其中 10 幅是通过Google搜索获得的真人图片,另外 10 幅则是由稳定扩散或 DALL-E 这两种常用的人工智能程序生成的图片。研究人员要求参与者给每张图片贴上真实或人工智能生成的标签,并解释他们做出这一决定的原因。只有 61% 的参与者能分辨出人工智能生成的人和真实的人,远远低于研究人员预期的 85% 临界值。研究中使用的三张人工智能生成的图片。图片来源:滑铁卢大学误导性指标与人工智能的快速发展滑铁卢大学计算机科学博士候选人、本研究的第一作者 Andreea Pocol 说:"人们并不像自己认为的那样善于区分。"参与者在寻找人工智能生成的内容时,会注意手指、牙齿和眼睛等细节,将其作为可能的指标,但他们的评估并不总是正确的。Pocol 指出,这项研究的性质允许参与者长时间仔细观察照片,而大多数互联网用户只是顺便看看图片,不会注意到这些提示。人工智能技术的发展速度极快,这使得理解人工智能生成的图像可能带来的恶意或邪恶行为变得尤为困难。学术研究和立法的步伐往往跟不上:自 2022 年底研究开始以来,人工智能生成的图像变得更加逼真。人工智能生成虚假信息的威胁作为一种政治和文化工具时,这些人工智能生成的图像尤其具有威胁性,任何用户都可以通过它制作出公众人物处于尴尬或危险境地的假图像。Pocol 说:"虚假信息并不新鲜,但虚假信息的工具一直在不断变化和发展。可能到了这样一个地步,无论人们接受过怎样的培训,他们仍然难以区分真实图像和假图像。这就是为什么我们需要开发工具来识别和应对这种情况。这就像是一场新的人工智能军备竞赛。"这项名为"眼见为实"的研究发表在《计算机图形学进展》(Advanced Computer Graphics)杂志上:Deepfakes, AI-Generated Humans, and Other Nonveridical Media: A Survey on the State of Deepfakes, AI-Generated Humans, and Other Nonveridical Media》一文发表在《计算机图形学进展》(Advances in Computer Graphics)杂志上。编译自:ScitechDaily ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人