NVIDIA 正在设法大幅提高生成 AI 图像和视频的速度

NVIDIA正在设法大幅提高生成AI图像和视频的速度Nvidia多伦多人工智能实验室的研究人员正在解决生成图像和视频的时间问题，本周在该公司的GTC2024会议上，他们概述了这项工作的一些成果，展示了旨在实现这一目标的进步更快（因此更经济）生成“噪音”明显更少的图像和更详细的3D图像，将时间从几周或几个月缩短为几天或几分钟。对于图像生成，研究人员着眼于加速扩散模型的工作，该模型用于解决生成高保真度高分辨率图像的棘手问题，并且是OpenAI的Dall-E3等文本到图像模型的基础谷歌的图像。从本质上讲，它们消除了“噪声”——图像原始场景内容中不存在的伪影，但这些伪影可能使图像看起来模糊、像素化、颗粒状或以其他方式表现不佳。——

在Telegram中查看

相关推荐

#Nvidia正在设法大幅提高生成AI像和视频的速度https://www.bannedbook.org/bnews/itnew

消息称 OpenAI 正测试 DALL-E 3 模型，有望推动 AI 图像生成进入新阶段

消息称OpenAI正测试DALL-E3模型，有望推动AI图像生成进入新阶段据外媒Decoder表示，OpenAI日前正在准备下一代DALL-EAI模型（DALL-E3），目前该公司正在进行一系列Alpha测试，而部分用户已经提早接触到了该AI模型。Decoder称，Discord上的一位匿名用户日前分享了他在测试DALL-E3时的体验。该匿名用户表示，5月份的DALL-E3测试版本已经能够生成多种长宽比的图像，同时支持更长的提示语句，还能生成“正常的文字”。DALL-E3在图像质量和多样性方面均有所突破，有望推动AI图像生成进入新阶段。来源：https://www.ithome.com/0/709/859.htm投稿：@ZaiHuaBot频道：@TestFlightCN

NVIDIA实现从图像中抽象出概念再生成新的图像人类幼崽技能AI终于学会了

NVIDIA实现从图像中抽象出概念再生成新的图像人类幼崽技能AI终于学会了人类幼崽2岁就能做的事，AI竟然才学会？早在2017年，就有网友吐槽：2岁幼童只要见过一次犀牛的照片，就能在其他图片里认出不同姿势、视角和风格的卡通犀牛，但AI却做不到。直到现在，这一点终于被科学家攻克了！最新研究发现，只要给AI喂3-5张图片，AI就能抽象出图片里的物体或风格，再随机生成个性化的新图片。有网友评价：非常酷，这可能是我这几个月来看到的最好的项目。它是如何工作的？让我们先来看几个例子。当你上传3张不同角度的陶瓷猫照片，可能会得到以下4张新图像：两只在船上钓鱼的陶瓷猫、陶瓷猫书包、班克斯艺术风格的猫以及陶瓷猫主题的午餐盒。同样的例子还有艺术品：铠甲小人：碗：不只是提取图像中的物体，AI还能生成特定风格的新图像。例如下图，AI提取了输入图像的绘画风格，生成了一系列该风格的新画作。更神奇的是，它还能将两组输入图像相结合，提取一组图像中的物体，再提取另一组的图像风格，两者结合，生成一张崭新的图像。除此之外，有了这个功能，你还可以对一些经典图像“下手”，给它们添加一些新元素。那么，这么神奇的功能背后是什么原理呢？尽管近两年来，大规模文本-图像模型，如DALL·E、CLIP、GLIDE等，已经被证明有很强的自然语言推理能力。但有一点：如果用户提出一些特定的需求，比如生成一张包含我最喜欢的童年玩具的新照片，或者把孩子的涂鸦变成一件艺术品，这些大规模模型都很难做到。为了应对这一挑战，研究给出了一个固定的、预先训练好的文本-图像模型和一个描述概念的小图像集（用户输入的3-5张图像），目标是找到一个单一的词嵌入，从小集合中重建图像。由于这种嵌入是通过优化过程发现的，于是称之为“文本倒置（TextualInversion）”。具体来说，就是先抽象出用户输入图像中的物体或风格，并转换为“S∗”这一伪词（pseudo-word），这时，这个伪词就可以被当作任何其他词来处理，最后根据“S∗”组合成的自然语句，生成个性化的新图像，比如：“一张S∗在海滩上的照片”、”一幅挂在墙上的S∗的油画”、”以S2∗的风格画一幅S1∗”。值得注意的是，由于本次研究应用了一个小规模、经过策划的数据集，因此在生成图像时能有效地避免刻板印象。例如下图，当提示“医生”时，其他模型倾向于生成白种人和男性的图像，而本模型生成图像中则增加了女性和其他种族的人数。目前，该项目的代码和数据已开源，感兴趣的小伙伴可以关注一下。作者介绍该篇论文来自特拉维夫大学和英伟达的研究团队，作者分别是RinonGal、YuvalAlaluf、YuvalAtzmon、OrPatashnik、AmitH.Bermano、GalChechik、DanielCohen-Or。第一作者RinonGal，是特拉维夫大学的计算机科学博士生，师从DanielCohen-Or和AmitBermano，主要研究方向是在减少监督的条件下生成2D和3D模型，目前在英伟达工作。参考链接：[1]https://textual-inversion.github.io/[2]https://github.com/rinongal/textual_inversion[3]http...PC版：https://www.cnbeta.com/articles/soft/1304219.htm手机版：https://m.cnbeta.com/view/1304219.htm

OpenAI宣布关闭DALL-E 2图像生成模型因为已经有更强大的DALL-E 3

OpenAI宣布关闭DALL-E2图像生成模型因为已经有更强大的DALL-E3到2023年9月OpenAI宣布推出DALL-E3，这是DALL-E2的升级版本，具有更好的图片生成特性，例如可以生成更高质量的图片、更准确地反映提示词，尤其是在处理常提示词内容是可以更好地理解并创建图片。当然重点是新版本解决了文本内容和人手的问题，文本内容指的是如果要在图片中显示一段文字或单词，那么AI模型无法处理；人手问题则是生成时人类可能有六只手指等。在DALL-E3发布半年后，OpenAI现在已经决定退役DALL-E2，当用户尝试登录OpenAI访问DALL-E2页面时，页面会提示：我们不再允许新用户使用DALL-E2，DALL-E3具有更高质量的图像、改进了提示依从性，我们已经开始推出图像编辑功能，该功能适用于ChatGPTPlus、ChatGPTTeam、ChatGPTEnterprise以及OpenAIAPI用户。所以实际上用户是无法继续使用DALL-E2生成图像的，当然这也不是什么坏事，用户可以继续使用DALL-E3并创建更多有趣的内容。...PC版：https://www.cnbeta.com.tw/articles/soft/1427942.htm手机版：https://m.cnbeta.com.tw/view/1427942.htm

麻省理工大学携手 Adobe 演示 DMD AI 技术：每秒可生成 20 幅图像

麻省理工大学携手Adobe演示DMDAI技术：每秒可生成20幅图像主流文生图模型固然已经能生成非常逼真的图片，但通常渲染时间非常缓慢。麻省理工大学携手Adobe公司近日研发了DMD方法，在尽量不影响图像质量的情况下，加快图像生成速度。DMD技术的全称是DistributionMatchingDistillation，将多步扩散模型简化为一步图像生成解决方案。团队表示：“我们的核心理念是训练两个扩散（diffusion）模型，不仅能预估目标真实分布（realdistribution）的得分函数，还能估计假分布（fakedistribution）的得分函数。”研究人员称，他们的模型可以在现代GPU硬件上每秒生成20幅图像。在上面的视频短片重点介绍了DMD与StableDiffusion1.5相比的图像生成能力。标清每幅图像StableDiffusion1.5需要1.4秒，而DMD只需几分之一秒就能生成类似的图像。来源，频道：@kejiqu群组：@kejiquchat

ML Blocks：无代码AI图像生成和分析工作流平台

MLBlocks：无代码AI图像生成和分析工作流平台它提供了一个拖放式的界面，允许用户轻松地创建复杂的图像处理工作流，无需编写任何代码。你只根据需要将不同的功能块（如图像编辑功能和AI模型）组合在一起，即可实现个性化的图像自动化处理。该工具主要解决在电商领域遇到的批量处理图片问题。MLBlocks允许用户创建可以处理多步骤图像生成或分析管道的自定义图像处理工作流，使用基于图的工作流。用户只需按顺序连接几个块，如去背景->裁剪->AI上采样，就可以在几分钟内得到完整的图像处理工作流。主要功能：生成图像：使用StableDiffusion等AI模型生成或绘制图像。编辑图像：提供编辑功能，如裁剪、调整大小、重新着色等，来修改图像。分析图像：利用检测或分割模型从图像中提取数据。实际应用示例：基于提示模糊图像特定区域：传统方法需要使用DINO模型生成提示中提到的对象周围的边界框，然后使用像SegmentAnything这样的分割模型生成这些区域的遮罩，最后使用Pillow或OpenCV库编写模糊功能来模糊遮罩区域。而使用MLBlocks，用户只需将分割、遮罩和模糊块连接起来，就能在2分钟内完成工作流程。你还可以自动生成博客帖子或推文的横幅图像、根据提示移除图像中的对象、去除背景并用AI创建新背景等多种工作流程。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人