MobileDiffusion是Google研究的一种新的移动端文本生成图像的方法,专为移动设备设计,是一种高效的潜在扩散模型,

是Google研究的一种新的移动端文本生成图像的方法,专为移动设备设计,是一种高效的潜在扩散模型,能够在半秒内生成高质量的512x512图像。MobileDiffusion的设计遵循潜扩散模型,包括三个组件:文本编码器、扩散UNet和图像解码器。MobileDiffusion通过优化模型架构,包括DiffusionUNet和图像解码器,展现了在计算效率上的出色表现,该技术有望在移动设备上推动快速图像生成体验,拓展了生成模型在提高用户体验和应对隐私问题方面的潜在应用。

相关推荐

封面图片

Google研发的AI模型可以从文本甚至图像中生成高保真音乐

Google研发的AI模型可以从文本甚至图像中生成高保真音乐Choi解释了一下这些模型各自的工作原理:MuLan是一个文本-音乐联合嵌入模型,支持对比性训练和来自YouTube的44M音乐音频-文本描述对。AudioLM使用一个来自语音预训练模型的中间层来获取语义信息。w2v-BERT是一个来自Transformers的双向编码器表表达法,这是一个最初用于语音的深度学习工具,这次用于音频。SoundStream是一个神经音频编解码器。Google将所有这些结合起来,产生了从文本中生成音乐的AI模型,以下是研究人员对MusicLM的解释。MusicLM是一个从文本描述中生成高保真音乐的模型,如"平静的小提琴旋律伴着扭曲的吉他旋律"。MusicLM将有条件的音乐生成过程作为一个层次化的序列到序列的建模任务,它生成的音乐频率为24KHz,时长可以达到几分钟。实验表明,MusicLM在音频质量和对文本描述的遵守方面都优于以前的系统。此外,还可以证明MusicLM可以以文本和旋律为条件,因为它可以根据文本说明中描述的风格来转换口哨和哼唱的旋律。为了支持未来的研究,我们公开发布了MusicCaps,这是一个由5500首音乐-文本对组成的数据集,其中有人类专家提供的丰富文本描述。相对而言,想想ChatGPT能够完成的事情就很有意思。艰难的考试,分析复杂的代码,为国会写决议,甚至创造诗歌、音乐歌词等。在这种情况下,MusicLM更是超越了前者,把文字意图、一个故事甚至一幅绘画转化为歌曲。看到萨尔瓦多-达利的《记忆的持久性》被转化为旋律,这很吸引人。不幸的是,该公司并不打算向公众发布这种模型,但您仍然可以在这里看看-和听听-这个人工智能模型如何从文本中生成音乐:https://google-research.github.io/seanet/musiclm/examples/...PC版:https://www.cnbeta.com.tw/articles/soft/1341263.htm手机版:https://m.cnbeta.com.tw/view/1341263.htm

封面图片

研究人员尝试用稳定扩散方法压缩图像 结果竟然优于JPEG

研究人员尝试用稳定扩散方法压缩图像结果竟然优于JPEG上周,瑞士软件工程师MatthiasBühlmann发现——流行的图像合成模型“StableDiffusion”,可实现较现有的JPEG或WebP格式更高的位图图像压缩比、且视觉伪影也更少。即便如此,StableDiffusion也不是那么完美。作为一种AI图像合成模型,其通常根据文本描述(所谓的“提示”)而生成图像。PC版:https://www.cnbeta.com/articles/soft/1321855.htm手机版:https://m.cnbeta.com/view/1321855.htm

封面图片

Stability AI推出适用于普通电脑的文本生成图像模型SD3 Medium

StabilityAI推出适用于普通电脑的文本生成图像模型SD3MediumStabilityAI今天宣布基于SD3推出了新版本SD3Medium版,该版本只有2B参数,适合在消费级设备上使用。SD3Medium同样免费,属于开放但非开源的模型,如果需要商业性使用应当购买授权。下载链接:关注频道@ZaiHuaPd频道爆料@ZaiHuabot

封面图片

介绍了一种更高效的方法来收集和标注图像数据,以用于视觉和视觉-语言应用。

介绍了一种更高效的方法来收集和标注图像数据,以用于视觉和视觉-语言应用。通过在电子商务网站上收集图像和描述文本,构建了一个名为Let'sGoShopping(LGS)的大规模公共数据集,包含1500万个图像-描述对。与现有的通用数据集相比,LGS图像更注重前景对象,背景较简单。实验结果表明,现有基准数据集上训练的分类器不容易推广到电子商务数据,而特定的自监督视觉特征提取器可以更好地泛化。此外,LGS具有高质量的电子商务焦点图像和双模态特性,在视觉语言双模态任务中具有优势,可以生成更丰富的图像描述并实现电子商务风格转换。为了使LGS可供公众使用,将以"BSD3-Clause"许可证共享筛选后的图像-描述链接,并提供下载工具以便复现数据集。

封面图片

Meta开源新的AI图像水印技术,但真的靠谱吗?

Meta开源新的AI图像水印技术,但真的靠谱吗?例如,今年早些时候,教皇方济各穿着一件华丽的白色蓬松夹克的图片在网上疯传,特朗普被逮捕的照片引发热议。这些图像不是真实的照片,但很多人都被愚弄了,因为没有任何明确的指标来区分这些内容是由生成式AI创建的。Meta研究人员近日发布了一篇新的研究论文和技术代码,详细介绍了一种为AI图片添加隐形水印的技术,用于区分开源生成式AI模型何时创建的图像。隐形水印将信息合并到数字内容中。这些水印肉眼看不见,但可以通过算法检测到——即使人们重新编辑了图像。虽然围绕水印还有其他研究方向,但许多现有方法在生成AI图像后创建水印。据EverypixelJournal报道,用户已经使用三个开源存储库的模型创建了超过110亿张图像。在这种情况下,只需删除生成水印的行即可删除不可见水印。StableSignature提出了一种方法来避免水印被删除。01StableSignature方法的工作原理论文地址:https://arxiv.org/abs/2303.15435Github地址:https://github.com/facebookresearch/stable_signatureStableSignature通过将水印扎根于模型中,并使用可追溯到图像创建位置的水印,消除了删除水印的可能性。让我们通过下面的图表来看看这个过程是如何工作的。Alice训练了一个主生成模型。在分发之前,她对模型的一小部分(称为解码器)进行了微调,从而为Bob生成给定的水印。该水印可以标识型号版本、公司、用户等。Bob收到他的模型版本并生成图像。生成的图像将带有Bob的水印。Alice或第三方可以对它们进行分析,看看图像是否是由使用生成式AI模型的Bob生成的。这通过两步来实现:1.联合训练两个卷积神经网络。一种将图像和随机消息编码为水印图像,另一种则从水印图像的增强版本中提取消息。目标是使编码和提取的消息匹配。训练后,只保留水印提取器。2.对生成模型的潜在解码器进行微调以生成包含固定签名的图像。在此微调过程中,会对批量图像进行编码、解码和优化,以最大限度地减少提取的消息与目标消息之间的差异,并保持感知图像质量。这种优化过程快速有效,只需要小批量和很短的时间即可获得高质量的结果。02评估StableSignature的性能我们知道人们喜欢分享和转发图像。如果Bob与10个朋友分享了他创建的图像,然后每个朋友又与另外10个朋友分享了该图像,结果会怎样?在此期间,有人可能会更改图像,例如裁剪、压缩或更改颜色。研究人员构建了StableSignature以应对这些变化。无论人们如何转换图像,原始水印都可能保留在数字数据中,并且可以追溯到创建它的生成模型。研究人员发现StableSignature相对于被动检测方法的两大优势:首先,能够控制和减少误报的产生,当将人类生成的图像误认为是AI生成的图像时,就会发生误报。考虑到在线共享的非AI生成图像的盛行,这一点至关重要。例如,最有效的现有检测方法可以发现大约50%的编辑生成图像,但仍会产生大约1/100的误报率。换句话说,在每天接收10亿张图像的用户生成内容平台上,大约1000万张图像将被错误标记,从而仅检测到一半的AI生成图像。另一方面,StableSignature以1e-10的误报率(可以设置为特定的期望值)以相同的精度检测图像。此外,这种水印方法允许追踪同一模型的不同版本的图像——这是被动技术无法实现的能力。03如果一个大模型经过了微调,StableSignature如何检测到微调版本生成的图像?AI大模型的一种常见做法是采用基础模型并对其进行微调,以处理有时甚至为一个人量身定制的特定用例。例如,可以向模型显示Alice的狗的图像,然后Alice可以要求模型生成她的狗在海滩的图像。这是通过DreamBooth、TextualInversion和ControlNet等方法完成的。这些方法作用于潜在模型级别,并且不会更改解码器。这意味着我们的水印方法不受这些微调的影响。总体而言,StableSignature与矢量量化图像建模(如VQGAN)和潜在扩散模型(如StableDiffusion)配合良好。由于这种方法不修改扩散生成过程,因此它与上述流行模型兼容。通过一些调整,稳定签名也可以应用于其他建模方法。04AI水印真的靠谱吗?通过添加隐形水印的方式来识别AI生成图像的技术最近受到很多争议。GoogleDeepMind最近宣布针对图像生成推出一种添加水印的工具SynthID,同时识别AI生成的图像。通过扫描图像中的数字水印,SynthID可以评估图像是由Imagen模型生成的可能性。但AI水印是否能够被轻易去除?据外媒Engadget、Wired等报道,美国马里兰大学的一个研究小组对AI生成内容的“数字水印”技术可靠性进行研究,发现这一技术可被轻易破解。该校计算机科学教授SoheilFeizi面对AI生成图像的水印现状时直言不讳:“目前我们没有任何可靠的水印技术,我们破解了所有的水印。”在测试过程中,研究人员可轻松避开现有的水印方法,并发现在非AI生成的图像上添加“假水印”更为容易。同时,该团队还开发出了一种“几乎无法”从图像中去除的水印技术,且不会完全损害图像的知识产权。AI水印这种方式仍旧不过成熟,并不能成为百分百有效的工具。我们需要期待未来能够出现新的技术来为生成式AI图像保驾护航,避免虚假图片泛滥,避免版权侵害。...PC版:https://www.cnbeta.com.tw/articles/soft/1389111.htm手机版:https://m.cnbeta.com.tw/view/1389111.htm

封面图片

云从科技:从容大模型支持通过文本和音频生成图像和视频

云从科技:从容大模型支持通过文本和音频生成图像和视频OpenAI的视频生成模型Sora引发关注,云从科技相关负责人表示,云从科技在视觉方面积累较为深厚,目前,从容大模型已实现利用diffusion、GAN等生成式技术围绕人物图像、人物视频数据进行建模,通过文本和音频实现对图像和视频内容进行生成、控制、编辑。应用上,云从科技与天津港、华为等共同开发港口大模型PortGPT,核心是AI智能体天天,通过AI生成交互画面,协同数据分析,提高港口运转效率及安全性。此外,还在文生图像、视频等跨模态领域积极布局,包括发布数字人能力平台,生成AI视频;与中国电信合作AI营销海报生成等。(科创板日报)

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人