研究人员尝试用稳定扩散方法压缩图像结果竟然优于JPEG

研究人员尝试用稳定扩散方法压缩图像结果竟然优于JPEG上周，瑞士软件工程师MatthiasBühlmann发现——流行的图像合成模型“StableDiffusion”，可实现较现有的JPEG或WebP格式更高的位图图像压缩比、且视觉伪影也更少。即便如此，StableDiffusion也不是那么完美。作为一种AI图像合成模型，其通常根据文本描述（所谓的“提示”）而生成图像。PC版：https://www.cnbeta.com/articles/soft/1321855.htm手机版：https://m.cnbeta.com/view/1321855.htm

在Telegram中查看

相关推荐

Google的Jpegli编码库可将高质量JPEG压缩率提高约35%

Google的Jpegli编码库可将高质量JPEG压缩率提高约35%Jpegli的编码和解码符合原始的JPEG标准，压缩后的图像应该更清晰，伪影更少，使用libjpeg-turbo和MozJPEG等程序后性能非常快，而且支持每个组件10多比特的编码。Google博文是这样介绍Jpegli的：Jpegli通过使用大量新技术来减少噪点和提高图像质量，主要包括JPEGXL参考实现中的自适应量化启发式技术、改进的量化矩阵选择、精确计算中间结果以及使用更高级色彩空间的可能性。所有新方法都经过精心设计，以使用传统的8位JPEG形式，因此新压缩的图像与现有的JPEG浏览器（如浏览器、图像处理软件等）兼容。据Google统计，Jpegli可以比传统的JPEG编解码器多压缩35%的高质量图像。目前，Jpegli的代码存在于libjxl（JPEG-XL库）资源库中。...PC版：https://www.cnbeta.com.tw/articles/soft/1426126.htm手机版：https://m.cnbeta.com.tw/view/1426126.htm

麻省理工学院研究人员开发出对图像质量影响最小的超快速图像生成方法

麻省理工学院研究人员开发出对图像质量影响最小的超快速图像生成方法图像生成人工智能通常采用一种称为扩散的过程，通过几个采样步骤来完善视觉输出，以达到最终希望"逼真"的结果。研究人员表示，扩散模型可以生成高质量的图像，但需要数十次前向传递。Adobe研究中心和麻省理工学院的专家们正在引入一种名为"分布匹配蒸馏"（DMD）的技术。这一程序将多步扩散模型简化为一步图像生成解决方案。由此产生的模型可以生成与StableDiffusion1.5等"传统"扩散模型相当的图像，但速度要快上几个数量级。"我们的核心理念是训练两个扩散模型，不仅能估计目标真实分布的得分函数，还能估计假分布的得分函数。"研究人员称，他们的模型可以在现代GPU硬件上每秒生成20幅图像。上面的视频短片重点介绍了DMD与StableDiffusion1.5相比的图像生成能力。标清每幅图像需要1.4秒，而DMD只需几分之一秒就能生成类似的图像。虽然在质量和性能之间有所权衡，但最终结果仍在普通用户可接受的范围之内。该团队发表的关于新渲染方法的文章展示了使用DMD生成图像结果的更多示例。它比较了稳定扩散和DMD，同时提供了生成图像的重要文字提示。主题包括通过虚拟数码单反相机镜头取景的一只狗、多洛米蒂山脉、森林中一只神奇的鹿、一只鹦鹉宝宝的3D渲染、独角兽、胡须、汽车、猫，甚至更多的狗。分布匹配蒸馏法并不是第一种用于生成人工智能图像的单步方法。StabilityAI公司开发了一种被称为逆向扩散蒸馏（ADD）的技术，用于实时生成100万像素的图像。该公司通过ADD训练其SDXLTurbo模型，在单个NVIDIAA100AIGPU加速器上实现了仅207毫秒的图像生成速度。Stability的ADD采用了与麻省理工学院的DMD类似的方法。...PC版：https://www.cnbeta.com.tw/articles/soft/1425166.htm手机版：https://m.cnbeta.com.tw/view/1425166.htm

Google再次被指责冷落JPEG XL图像格式

Google再次被指责冷落JPEGXL图像格式JPEGXL"图像编码系统"ISO标准是一种新的通用图像格式，可降低服务器存储要求的成本，并向后兼容现有的基于JPEG的应用程序。它被设计为JPEG格式（最初于1992年推出的一种图像压缩技术）的高效替代格式。不幸的是，尽管在"Interop2024"项目（该项目旨在促进Chromium、Gecko（Firefox）和WebKit（Safari）浏览器引擎之间的互操作性）期间，该格式成为开发人员最受欢迎的选择，但我们可能不会在短期内看到网络广泛采用该格式。根据Interop项目的GitHub页面，苹果、Google、微软和Mozilla将合作在各自的浏览器中实施交叉兼容的网络技术。作为Interop2024大会上要求最多的功能，JPEGXL将是这个新的互操作性联盟的完美候选者。网络开发人员对使用JPEGXL格式非常感兴趣，但Interop项目的成员却不会跟进。该组织解释说，之所以拒绝JPEGXL提案，是因为其成员无法就是否纳入JPEGXL达成一致。Interop指出，这一拒绝不应被视为"对整个技术的评论"。许多人很快就把矛头指向了Google，认为这是JPEGXL遭到拒绝的原因。去年4月，Google在Chromium中放弃了对该格式的实验性支持，称网络生态系统对这种与现有图像格式相比没有显著优势的技术没有足够的兴趣。Cloudinary图像研究员、JPEGXL规范编辑JonSneyers说，Chrome浏览器团队似乎在反对新格式。考虑到许多格式开发人员都来自Google研究院，斯内尔斯并不认为Google作为一家公司正在试图扼杀JPEGXL。不过，Chrome浏览器团队与Google研究部门"在组织上有相当大的距离"。至于"生态系统对"JPEGXL的"兴趣"，苹果和Adobe目前在其软件开发中支持这种格式。三星承诺在其即将推出的手机中支持该格式，而微软也可能很快将该格式引入Windows系统。Mozilla表示对该技术持中立态度，因为JPEGXL技术的性能实测似乎并不比AVIF等竞争对手好多少。不过，如果有足够的需求，Firefox浏览器制造商愿意支持这种新格式。...PC版：https://www.cnbeta.com.tw/articles/soft/1416361.htm手机版：https://m.cnbeta.com.tw/view/1416361.htm

Google推出新图像控制方式可在StableDiffusion图像生成中保证内容特征一致性

Google推出新图像控制方式可在StableDiffusion图像生成中保证内容特征一致性论文地址：https://arxiv.org/pdf/2311.10093.pdf这项技术的实现方法包括三个步骤。首先是身份聚类，通过生成一系列图像，并将它们嵌入到语义空间中，使用聚类算法将这些图像分组，每个组代表一种可能的角色身份。这个过程旨在识别出一组视觉上一致的图像，从而确定角色的主要视觉特征。接下来是身份提取，一旦确定了一组具有高内聚性的图像，就会在这些图像上训练模型，以提取出更一致的角色身份。这意味着模型将学习到特定角色的关键视觉特征，以便在未来的生成中更准确地重现这些特征。...PC版：https://www.cnbeta.com.tw/articles/soft/1398313.htm手机版：https://m.cnbeta.com.tw/view/1398313.htm

Stability AI推出Stable Diffusion 3 提示文本理解更好、图像质量更强

StabilityAI推出StableDiffusion3提示文本理解更好、图像质量更强StableDiffusion3的参数在8亿——80亿之间，也就是说StableDiffusion3可能是专为移动设备开发的，AI算力消耗将更低，推理速度却更快。目前，StableDiffusion3支持申请使用，未来会扩大测试范围。申请地址：https://stability.ai/stablediffusion3stability.ai没有过多的介绍StableDiffusion3的技术内容，但指出其核心架构使用了Transformer和FlowFMatching（简称“FM”）。Transformer大家都很熟悉了，ChatGPT、T5 、BERT等很多著名模型都是基于该架构开发的。而FM是MetaAI和魏茨曼科学研究所在2022年10月发布的，一种全新高效建模、训练技术概念。FlowMatching论文地址：https://arxiv.org/abs/2210.02747FlowMatching简单介绍目前，很多文生图模型使用的是CNF（连续正规化流动）训练方法，主要使用常微分方程对流动进行建模，实现从一种已知分布到目标分布的平滑映射。但由于训练过程需要进行大量的微分方程模拟，会导致算力成本高、模型设计复杂、可解释性差等缺点。FM则是放弃微分方程的直接模拟,而是通过回归固定条件概率轨迹来实现无模拟训练。研究人员设计了条件概率分布与向量场的概念,利用边缘分布的结合可以建立总体目标概率轨迹与向量场,从而消除了模拟过程对梯度计算的影响。1）条件概率路径构建：FM需要给出一个目标概率路径,该路径从简单分布演变到逼近数据分布。然后利用条件概率路径构建了目标路径,这样每个样本有一个对应的条件路径。2）变换层：构成FM的基本单元，每个变换层都是可逆的。这意味着从输入到输出的每一步映射都可以精确地反转，从而允许从目标分布反推到原始分布。3）耦合层：将输入分成两部分，对其中一部分应用变换，而变换函数可以是任意的神经网络，其参数由另一部分决定，保证了变换的可逆性。目前，FM技术已在图像生成与超分辨率、图像理解、图像修复与填充、条件图像生成、图像风格迁移与合成、视频处理等领域得到广泛应用。StableDiffusion3案例展示本次的发布页面也是由StableDiffusion3生成的，提示词：史诗般的动漫艺术风格，一位巫师站在夜间的山顶上，向黑暗的天空施放咒语，上面写着由彩色能量生成的“StableDiffusion3”文字教室桌子上有一个红苹果，电影风格，背景的黑板上用粉笔写着“要么做大，要么回家”一名宇航员骑着一只穿着蓬蓬裙的猪，撑着一把粉色的伞，猪旁边的地上有一只戴着高帽的知更鸟，角落里写着"StableDiffusion"的字样。一只变色龙，黑色背景，摄影风格。一辆跑车的夜间照片，侧面写有“SD3”字样，汽车在赛道上高速行驶，巨大的路标上写着“更快”的文字。波浪冲击苏格兰灯塔的鱼眼镜头照片，黑色波浪。...PC版：https://www.cnbeta.com.tw/articles/soft/1420259.htm手机版：https://m.cnbeta.com.tw/view/1420259.htm

Nightshade用向图像“投毒”的方法以阻止AI训练并帮助保护艺术家

Nightshade用向图像“投毒”的方法以阻止AI训练并帮助保护艺术家《麻省理工科技评论》重点介绍了由芝加哥大学研究人员创建的名为Nightshade的新工具。它的工作原理是在上传图像之前对图像像素进行非常小的更改，这些更改是肉眼无法看到的。这会毒害DALL-E、StableDiffusion和Midjourney等工具使用的训练数据，导致模型以不可预测的方式崩溃。生成式人工智能如何错误地解释被茄属植物毒害的图像的一些例子包括将狗变成猫，将汽车变成牛，将帽子变成蛋糕，将手提包变成烤面包机。它也适用于提示不同的艺术风格：立体派变成动漫，卡通变成印象派，概念艺术变成抽象派。研究人员最近在arXiv上发表的论文将Nightshade描述为一种特定提示的中毒攻击。Nightshade不需要毒害数百万张图像，而是可以用大约50个样本破坏稳定扩散提示，如下图所示。研究人员写道，该工具不仅可以毒害“狗”等特定提示术语，还可以“渗透”到“小狗”、“猎犬”和“哈士奇”等相关概念。它甚至会影响间接相关的图像；例如，中毒“幻想艺术”会将“一条龙”、“指环王中的一座城堡”和“迈克尔·惠兰的一幅画”的提示变成不同的东西。领导了Nightshade创建团队的芝加哥大学教授赵本表示，他希望该工具能够对不尊重艺术家版权和知识产权的人工智能公司起到威慑作用。他承认存在恶意使用的可能性，但要对更大、更强大的模型造成真正的损害，攻击者需要毒害数千张图像，因为这些系统是在数十亿数据样本上进行训练的。生成式人工智能模型训练者还可以使用针对这种做法的防御措施，例如过滤高损失数据、频率分析和其他检测/删除方法，但赵本说它们不是很稳健。一些大型人工智能公司让艺术家可以选择不将他们的作品用于人工智能训练数据集，但这可能是一个艰巨的过程，并且无法解决任何可能已经被废弃的作品。许多人认为艺术家应该可以选择加入而不是必须选择退出。...PC版：https://www.cnbeta.com.tw/articles/soft/1392263.htm手机版：https://m.cnbeta.com.tw/view/1392263.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人