MobileDiffusion是Google研究的一种新的移动端文本生成图像的方法，专为移动设备设计，是一种高效的潜在扩散模型，

是Google研究的一种新的移动端文本生成图像的方法，专为移动设备设计，是一种高效的潜在扩散模型，能够在半秒内生成高质量的512x512图像。MobileDiffusion的设计遵循潜扩散模型，包括三个组件：文本编码器、扩散UNet和图像解码器。MobileDiffusion通过优化模型架构，包括DiffusionUNet和图像解码器，展现了在计算效率上的出色表现，该技术有望在移动设备上推动快速图像生成体验，拓展了生成模型在提高用户体验和应对隐私问题方面的潜在应用。

在Telegram中查看

相关推荐

Google研发的AI模型可以从文本甚至图像中生成高保真音乐

Google研发的AI模型可以从文本甚至图像中生成高保真音乐Choi解释了一下这些模型各自的工作原理：MuLan是一个文本-音乐联合嵌入模型，支持对比性训练和来自YouTube的44M音乐音频-文本描述对。AudioLM使用一个来自语音预训练模型的中间层来获取语义信息。w2v-BERT是一个来自Transformers的双向编码器表表达法，这是一个最初用于语音的深度学习工具，这次用于音频。SoundStream是一个神经音频编解码器。Google将所有这些结合起来，产生了从文本中生成音乐的AI模型，以下是研究人员对MusicLM的解释。MusicLM是一个从文本描述中生成高保真音乐的模型，如"平静的小提琴旋律伴着扭曲的吉他旋律"。MusicLM将有条件的音乐生成过程作为一个层次化的序列到序列的建模任务，它生成的音乐频率为24KHz，时长可以达到几分钟。实验表明，MusicLM在音频质量和对文本描述的遵守方面都优于以前的系统。此外，还可以证明MusicLM可以以文本和旋律为条件，因为它可以根据文本说明中描述的风格来转换口哨和哼唱的旋律。为了支持未来的研究，我们公开发布了MusicCaps，这是一个由5500首音乐-文本对组成的数据集，其中有人类专家提供的丰富文本描述。相对而言，想想ChatGPT能够完成的事情就很有意思。艰难的考试，分析复杂的代码，为国会写决议，甚至创造诗歌、音乐歌词等。在这种情况下，MusicLM更是超越了前者，把文字意图、一个故事甚至一幅绘画转化为歌曲。看到萨尔瓦多-达利的《记忆的持久性》被转化为旋律，这很吸引人。不幸的是，该公司并不打算向公众发布这种模型，但您仍然可以在这里看看-和听听-这个人工智能模型如何从文本中生成音乐：https://google-research.github.io/seanet/musiclm/examples/...PC版：https://www.cnbeta.com.tw/articles/soft/1341263.htm手机版：https://m.cnbeta.com.tw/view/1341263.htm

研究人员尝试用稳定扩散方法压缩图像结果竟然优于JPEG

研究人员尝试用稳定扩散方法压缩图像结果竟然优于JPEG上周，瑞士软件工程师MatthiasBühlmann发现——流行的图像合成模型“StableDiffusion”，可实现较现有的JPEG或WebP格式更高的位图图像压缩比、且视觉伪影也更少。即便如此，StableDiffusion也不是那么完美。作为一种AI图像合成模型，其通常根据文本描述（所谓的“提示”）而生成图像。PC版：https://www.cnbeta.com/articles/soft/1321855.htm手机版：https://m.cnbeta.com/view/1321855.htm

Stability AI推出适用于普通电脑的文本生成图像模型SD3 Medium

StabilityAI推出适用于普通电脑的文本生成图像模型SD3MediumStabilityAI今天宣布基于SD3推出了新版本SD3Medium版，该版本只有2B参数，适合在消费级设备上使用。SD3Medium同样免费，属于开放但非开源的模型，如果需要商业性使用应当购买授权。下载链接：关注频道@ZaiHuaPd频道爆料@ZaiHuabot

介绍了一种更高效的方法来收集和标注图像数据，以用于视觉和视觉-语言应用。

介绍了一种更高效的方法来收集和标注图像数据，以用于视觉和视觉-语言应用。通过在电子商务网站上收集图像和描述文本，构建了一个名为Let'sGoShopping(LGS)的大规模公共数据集，包含1500万个图像-描述对。与现有的通用数据集相比，LGS图像更注重前景对象，背景较简单。实验结果表明，现有基准数据集上训练的分类器不容易推广到电子商务数据，而特定的自监督视觉特征提取器可以更好地泛化。此外，LGS具有高质量的电子商务焦点图像和双模态特性，在视觉语言双模态任务中具有优势，可以生成更丰富的图像描述并实现电子商务风格转换。为了使LGS可供公众使用，将以"BSD3-Clause"许可证共享筛选后的图像-描述链接，并提供下载工具以便复现数据集。

Meta开源新的AI图像水印技术，但真的靠谱吗？

Meta开源新的AI图像水印技术，但真的靠谱吗？例如，今年早些时候，教皇方济各穿着一件华丽的白色蓬松夹克的图片在网上疯传，特朗普被逮捕的照片引发热议。这些图像不是真实的照片，但很多人都被愚弄了，因为没有任何明确的指标来区分这些内容是由生成式AI创建的。Meta研究人员近日发布了一篇新的研究论文和技术代码，详细介绍了一种为AI图片添加隐形水印的技术，用于区分开源生成式AI模型何时创建的图像。隐形水印将信息合并到数字内容中。这些水印肉眼看不见，但可以通过算法检测到——即使人们重新编辑了图像。虽然围绕水印还有其他研究方向，但许多现有方法在生成AI图像后创建水印。据EverypixelJournal报道，用户已经使用三个开源存储库的模型创建了超过110亿张图像。在这种情况下，只需删除生成水印的行即可删除不可见水印。StableSignature提出了一种方法来避免水印被删除。01StableSignature方法的工作原理论文地址：https://arxiv.org/abs/2303.15435Github地址：https://github.com/facebookresearch/stable_signatureStableSignature通过将水印扎根于模型中，并使用可追溯到图像创建位置的水印，消除了删除水印的可能性。让我们通过下面的图表来看看这个过程是如何工作的。Alice训练了一个主生成模型。在分发之前，她对模型的一小部分（称为解码器）进行了微调，从而为Bob生成给定的水印。该水印可以标识型号版本、公司、用户等。Bob收到他的模型版本并生成图像。生成的图像将带有Bob的水印。Alice或第三方可以对它们进行分析，看看图像是否是由使用生成式AI模型的Bob生成的。这通过两步来实现：1.联合训练两个卷积神经网络。一种将图像和随机消息编码为水印图像，另一种则从水印图像的增强版本中提取消息。目标是使编码和提取的消息匹配。训练后，只保留水印提取器。2.对生成模型的潜在解码器进行微调以生成包含固定签名的图像。在此微调过程中，会对批量图像进行编码、解码和优化，以最大限度地减少提取的消息与目标消息之间的差异，并保持感知图像质量。这种优化过程快速有效，只需要小批量和很短的时间即可获得高质量的结果。02评估StableSignature的性能我们知道人们喜欢分享和转发图像。如果Bob与10个朋友分享了他创建的图像，然后每个朋友又与另外10个朋友分享了该图像，结果会怎样？在此期间，有人可能会更改图像，例如裁剪、压缩或更改颜色。研究人员构建了StableSignature以应对这些变化。无论人们如何转换图像，原始水印都可能保留在数字数据中，并且可以追溯到创建它的生成模型。研究人员发现StableSignature相对于被动检测方法的两大优势：首先，能够控制和减少误报的产生，当将人类生成的图像误认为是AI生成的图像时，就会发生误报。考虑到在线共享的非AI生成图像的盛行，这一点至关重要。例如，最有效的现有检测方法可以发现大约50%的编辑生成图像，但仍会产生大约1/100的误报率。换句话说，在每天接收10亿张图像的用户生成内容平台上，大约1000万张图像将被错误标记，从而仅检测到一半的AI生成图像。另一方面，StableSignature以1e-10的误报率（可以设置为特定的期望值）以相同的精度检测图像。此外，这种水印方法允许追踪同一模型的不同版本的图像——这是被动技术无法实现的能力。03如果一个大模型经过了微调，StableSignature如何检测到微调版本生成的图像？AI大模型的一种常见做法是采用基础模型并对其进行微调，以处理有时甚至为一个人量身定制的特定用例。例如，可以向模型显示Alice的狗的图像，然后Alice可以要求模型生成她的狗在海滩的图像。这是通过DreamBooth、TextualInversion和ControlNet等方法完成的。这些方法作用于潜在模型级别，并且不会更改解码器。这意味着我们的水印方法不受这些微调的影响。总体而言，StableSignature与矢量量化图像建模（如VQGAN）和潜在扩散模型（如StableDiffusion）配合良好。由于这种方法不修改扩散生成过程，因此它与上述流行模型兼容。通过一些调整，稳定签名也可以应用于其他建模方法。04AI水印真的靠谱吗？通过添加隐形水印的方式来识别AI生成图像的技术最近受到很多争议。GoogleDeepMind最近宣布针对图像生成推出一种添加水印的工具SynthID，同时识别AI生成的图像。通过扫描图像中的数字水印，SynthID可以评估图像是由Imagen模型生成的可能性。但AI水印是否能够被轻易去除？据外媒Engadget、Wired等报道，美国马里兰大学的一个研究小组对AI生成内容的“数字水印”技术可靠性进行研究，发现这一技术可被轻易破解。该校计算机科学教授SoheilFeizi面对AI生成图像的水印现状时直言不讳：“目前我们没有任何可靠的水印技术，我们破解了所有的水印。”在测试过程中，研究人员可轻松避开现有的水印方法，并发现在非AI生成的图像上添加“假水印”更为容易。同时，该团队还开发出了一种“几乎无法”从图像中去除的水印技术，且不会完全损害图像的知识产权。AI水印这种方式仍旧不过成熟，并不能成为百分百有效的工具。我们需要期待未来能够出现新的技术来为生成式AI图像保驾护航，避免虚假图片泛滥，避免版权侵害。...PC版：https://www.cnbeta.com.tw/articles/soft/1389111.htm手机版：https://m.cnbeta.com.tw/view/1389111.htm

云从科技：从容大模型支持通过文本和音频生成图像和视频

云从科技：从容大模型支持通过文本和音频生成图像和视频OpenAI的视频生成模型Sora引发关注，云从科技相关负责人表示，云从科技在视觉方面积累较为深厚，目前，从容大模型已实现利用diffusion、GAN等生成式技术围绕人物图像、人物视频数据进行建模，通过文本和音频实现对图像和视频内容进行生成、控制、编辑。应用上，云从科技与天津港、华为等共同开发港口大模型PortGPT，核心是AI智能体天天，通过AI生成交互画面，协同数据分析，提高港口运转效率及安全性。此外，还在文生图像、视频等跨模态领域积极布局，包括发布数字人能力平台，生成AI视频；与中国电信合作AI营销海报生成等。（科创板日报）

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人