Midjourney劲敌来了 Google StyleDrop王牌“定制大师”引爆AI艺术圈

Midjourney劲敌来了GoogleStyleDrop王牌“定制大师”引爆AI艺术圈再来一张卡通风，想要绘制的物体呆萌了许多。甚至，它还能精准把控细节，设计出原风格的logo。StyleDrop的魅力在于，只需要一张图作为参考，无论多么复杂的艺术风格，都能解构再复刻。网友纷纷表示，又是淘汰设计师的那种AI工具。StyleDrop爆火研究便是来自Google研究团队最新出品。论文地址：https://arxiv.org/pdf/2306.00983.pdf现在，有了StyleDrop这样的工具，不但可以更可控地绘画，还可以完成之前难以想象的精细工作，比如绘制logo。就连英伟达科学家将其称为“现象级”成果。“定制”大师论文作者介绍道，StyleDrop的灵感来源Eyedropper（吸色/取色工具）。同样，StyleDrop同样希望大家可以快速、毫不费力地从单个/少数参考图像中“挑选”样式，以生成该样式的图像。一只树懒能够有18种风格：一只熊猫有24种风格：小朋友画的水彩画，StyleDrop完美把控，甚至连纸张的褶皱都还原出来了。不得不说，太强了。还有StyleDrop参考不同风格对英文字母的设计：同样是梵高风的字母。还有线条画。线条画是对图像的高度抽象，对画面生成构成合理性要求非常高，过去的方法一直很难成功。原图中奶酪阴影的笔触还原到每种图片的物体上。参考AndroidLOGO创作。此外，研究人员还拓展了StyleDrop的能力，不仅能定制风格，结合DreamBooth，还能定制内容。比如，还是梵高风，给小柯基生成类似风格的画作：再来一个，下面这只柯基有种埃及金字塔上的“狮身人面像”的感觉。如何工作？StyleDrop基于Muse构建，由两个关键部分组成：一个是生成视觉Transformer的参数有效微调，另一个是带反馈的迭代训练。之后，研究人员再从两个微调模型中合成图像。Muse是一种基于掩码生成图像Transformer最新的文本到图像的合成模型。它包含两个用于基础图像生成(256×256)和超分辨率(512×512或1024×1024)的合成模块。每个模块都由一个文本编码器T，一个transformerG，一个采样器S，一个图像编码器E和解码器D组成。T将文本提示t∈T映射到连续嵌入空间E。G处理文本嵌入e∈E以生成视觉token序列的对数l∈L。S通过迭代解码从对数中提取视觉token序列v∈V，该迭代解码运行几步的transformer推理，条件是文本嵌入e和从前面步骤解码的视觉token。最后，D将离散token序列映射到像素空间I。总的来说，给定一个文本提示t，图像I的合成如下：图2是一个简化了的Musetransformer层的架构，它进行了部分修改，为的是支持参数高效微调（PEFT）与适配器。使用L层的transformer处理在文本嵌入e的条件下以绿色显示的视觉token序列。学习参数θ被用于构建适配器调优的权重。为了训练θ，在许多情况下，研究人员可能只给出图片作为风格参考。研究人员需要手动附加文本提示。他们提出了一个简单的、模板化的方法来构建文本提示，包括对内容的描述，后面跟着描述风格的短语。例如，研究人员在表1中用“猫”描述一个对象，并附加“水彩画”作为风格描述。在文本提示中包含内容和风格的描述至关重要，因为它有助于从风格中分离出内容，这是研究人员的主要目标。图3则是带反馈的迭代训练。当在单一风格参考图像（橙色框）上进行训练时，StyleDrop生成的一些图像可能会展示出从风格参考图像中提取出的内容（红色框，图像背景中含有与风格图像类似的房子）。其他图像（蓝色框）则能更好地从内容中拆分出风格。对StyleDrop进行好样本（蓝色框）的迭代训练，结果在风格和文本保真度之间取得了更好的平衡（绿色框）。这里研究人员还用到了两个方法：-CLIP得分该方法用于测量图像和文本的对齐程度。因此，它可以通过测量CLIP得分（即视觉和文本CLIP嵌入的余弦相似度）来评估生成图像的质量。研究人员可以选择得分最高的CLIP图像。他们称这种方法为CLIP反馈的迭代训练（CF）。在实验中，研究人员发现，使用CLIP得分来评估合成图像的质量是提高召回率（即文本保真度）的有效方式，而不会过多损失风格保真度。然而从另一方面看，CLIP得分可能不能完全与人类的意图对齐，也无法捕捉到微妙的风格属性。-HF人工反馈（HF）是一种将用户意图直接注入到合成图像质量评估中的更直接的方式。在强化学习的LLM微调中，HF已经证明了它的强大和有效。HF可以用来补偿CLIP得分无法捕捉到微妙风格属性的问题。目前，已有大量研究关注了文本到图像的扩散模型的个性化问题，以合成包含多种个人风格的图像。研究人员展示了如何以简单的方式将DreamBooth和StyleDrop结合起来，从而使风格和内容都能实现个性化。这是通过从两个修改后的生成分布中采样来完成的，分别由风格的θs和内容的θc指导，分别是在风格和内容参考图像上独立训练的适配器参数。与现有的成品不同，该团队的方法不需要在多个概念上对可学习的参数进行联合训练，这就带来了更大的组合能力，因为预训练的适配器是分别在单个主题和风格上进行训练的。研究人员的整体采样过程遵循等式(1)的迭代解码，每个解码步骤中采样对数的方式有所不同。设t为文本提示，c为无风格描述符的文本提示，在步骤k计算对数如下：其中：γ用于平衡StyleDrop和DreamBooth——如果γ为0，我们得到StyleDrop，如果为1，我们得到DreamBooth。通过合理设置γ，我们就可以得到合适的图像。实验设置目前为止，还没有对文本-图像生成模型的风格调整进行广泛的研究。因此，研究人员提出了一个全新实验方案：-数据收集研究者收集了几十张不同风格的图片，从水彩和油画，平面插图，3D渲到不同材质的雕塑。-模型配置研究人员使用适配器调优基于Muse的StyleDrop。对于所有实验，使用Adam优化器更新1000步的适配器权重，学习速率为0.00003。除非另有说明，研究人员使用StyleDrop来表示第二轮模型，该模型在10多个带有人工反馈的合成图像上进行训练。-评估研究报告的定量评估基于CLIP，衡量风格一致性和文本对齐。此外，研究人员进行了用户偏好研究，以评估风格一致性和文本对齐。如图，研究人员收集的18个不同风格的图片，StyleDrop处理的结果。可以看到，StyleDrop能够捕捉各种样式的纹理、阴影和结构的细微差别，能够比以前更好地控制风格。为了进行比较，研究人员还介绍了DreamBooth在Imagen上的结果，DreamBooth在StableDiffusion上的LoRA实现和文本反演的结果。具体结果如表所示，图像-文本对齐（Text）和视觉风格对齐（Style）的人类评分（上）和CLIP评分（下）的评价指标。(a)DreamBooth，(b)StyleDrop，和(c)DreamBooth+StyleDrop的定性比较：这里，研究人员应用了上面提到的CLIP分数的两个指标——文本和风格得分。对于文本得分，研究人员测量图像和文本嵌入之间的余弦相似度。对于风格得分，研究人员测量风格参考和合成图像嵌入之间的余弦相似度。研究人员为190个文本提示生成总共1520个图像。虽然研究人员希望最终得分能高一些，但其实这些指标并不完美。而迭代训练（IT）提高了文本得分，这符合研究人员的目标。然而，作为权衡，它们在第一轮模型上的风格得分有所降低，因为它们是在合成图像上训练的，风格可能因选择偏见而偏移。Imagen上的DreamBooth在风格得分上不及StyleDrop（HF的0.644对比0.694）。研究人员注意到，Imagen上的DreamBooth的风格得分增加并不明显（0.569→0.644），而Muse上的StyleDrop的增加更加明显（0.556→0.694）。研究人员分析，Muse上的风格微调比Imagen上的更有效。另外，在细粒度控制上，StyleDrop捕捉微妙的风...PC版：https://www.cnbeta.com.tw/articles/soft/1363333.htm手机版：https://m.cnbeta.com.tw/view/1363333.htm

在Telegram中查看

相关推荐

Google研发的AI模型可以从文本甚至图像中生成高保真音乐

Google研发的AI模型可以从文本甚至图像中生成高保真音乐Choi解释了一下这些模型各自的工作原理：MuLan是一个文本-音乐联合嵌入模型，支持对比性训练和来自YouTube的44M音乐音频-文本描述对。AudioLM使用一个来自语音预训练模型的中间层来获取语义信息。w2v-BERT是一个来自Transformers的双向编码器表表达法，这是一个最初用于语音的深度学习工具，这次用于音频。SoundStream是一个神经音频编解码器。Google将所有这些结合起来，产生了从文本中生成音乐的AI模型，以下是研究人员对MusicLM的解释。MusicLM是一个从文本描述中生成高保真音乐的模型，如"平静的小提琴旋律伴着扭曲的吉他旋律"。MusicLM将有条件的音乐生成过程作为一个层次化的序列到序列的建模任务，它生成的音乐频率为24KHz，时长可以达到几分钟。实验表明，MusicLM在音频质量和对文本描述的遵守方面都优于以前的系统。此外，还可以证明MusicLM可以以文本和旋律为条件，因为它可以根据文本说明中描述的风格来转换口哨和哼唱的旋律。为了支持未来的研究，我们公开发布了MusicCaps，这是一个由5500首音乐-文本对组成的数据集，其中有人类专家提供的丰富文本描述。相对而言，想想ChatGPT能够完成的事情就很有意思。艰难的考试，分析复杂的代码，为国会写决议，甚至创造诗歌、音乐歌词等。在这种情况下，MusicLM更是超越了前者，把文字意图、一个故事甚至一幅绘画转化为歌曲。看到萨尔瓦多-达利的《记忆的持久性》被转化为旋律，这很吸引人。不幸的是，该公司并不打算向公众发布这种模型，但您仍然可以在这里看看-和听听-这个人工智能模型如何从文本中生成音乐：https://google-research.github.io/seanet/musiclm/examples/...PC版：https://www.cnbeta.com.tw/articles/soft/1341263.htm手机版：https://m.cnbeta.com.tw/view/1341263.htm

MovieLLM: 用AI合成电影数据用来训练AI对长视频理解

MovieLLM:用AI合成电影数据用来训练AI对长视频理解MovieLLM是由复旦大学和腾讯PCG的研究人员共同开发的一个新颖框架，能够从简单的文本提示中生成高质量、电影级别的视频数据。MovieLLM能仅仅通过一个词或一个句子就能创作出一部完整的电影。MovieLLM旨在为长视频创建合成的高质量数据。这个框架结合了GPT-4和文本到图像的模型，以生成详细的剧本和相应的视觉内容。通俗来讲就是：MovieLLM通过合成电影数据为人工智能模型提供训练材料，使它们能够更好地理解和生成长视频内容。#框架

研究表明用AI产生的语料来训练AI将使其退化并最终崩溃

研究表明用AI产生的语料来训练AI将使其退化并最终崩溃现在，随着越来越多的人使用AI来制作和发布内容，一个明显的问题出现了：当AI生成的内容在互联网上激增并且AI模型开始用其进行训练，而不是使用主要人类生成的内容时，会发生什么？来自英国和加拿大的一组研究人员已经研究了这个问题，并且最近在开放获取期刊arXiv上发表了一篇关于他们工作的论文。他们的发现令当前的生成式AI技术及其未来令人担忧：“我们发现在训练中使用模型生成的内容会导致生成的模型出现不可逆转的缺陷。”研究人员专门研究了文本到文本和图像到图像AI生成模型的概率分布，得出结论：“从其他模型生成的数据中学习会导致模型崩溃——一个退化过程，随着时间的推移，模型会忘记真正的底层数据分布……这个过程是不可避免的，即使对于具有近乎理想的长期学习条件的情况也是如此。”“随着时间的推移，生成数据中的错误会复合并最终迫使从生成数据中学习的模型进一步错误地感知现实，”该论文的主要作者之一IliaShumailov在给VentureBeat的电子邮件中写道。“我们惊讶地观察到模型崩溃发生的速度有多快：模型可以迅速忘记他们最初从中学习的大部分原始数据。”换句话说：当AI训练模型接触到更多AI生成的数据时，它的性能会随着时间的推移而变差，在其生成的响应和内容中产生更多错误，并在其响应中产生更少的非错误多样性。——额外编辑：研究人员同样担忧，目前互联网上AI生成内容正在迅速增加，训练下一代ai的数据正在被迅速污染。

麻省理工大学携手 Adobe 演示 DMD AI 技术：每秒可生成 20 幅图像

麻省理工大学携手Adobe演示DMDAI技术：每秒可生成20幅图像主流文生图模型固然已经能生成非常逼真的图片，但通常渲染时间非常缓慢。麻省理工大学携手Adobe公司近日研发了DMD方法，在尽量不影响图像质量的情况下，加快图像生成速度。DMD技术的全称是DistributionMatchingDistillation，将多步扩散模型简化为一步图像生成解决方案。团队表示：“我们的核心理念是训练两个扩散（diffusion）模型，不仅能预估目标真实分布（realdistribution）的得分函数，还能估计假分布（fakedistribution）的得分函数。”研究人员称，他们的模型可以在现代GPU硬件上每秒生成20幅图像。在上面的视频短片重点介绍了DMD与StableDiffusion1.5相比的图像生成能力。标清每幅图像StableDiffusion1.5需要1.4秒，而DMD只需几分之一秒就能生成类似的图像。来源，频道：@kejiqu群组：@kejiquchat

破解“反AI”情绪德国马普所揭秘：人类更喜欢自我定制AI艺术

破解“反AI”情绪德国马普所揭秘：人类更喜欢自我定制AI艺术不过，大部分人还是达成了共识，如果一幅精美的AI作品和大师手笔放在一起，我们还是会认为人类的作品要更好，愿意去了解作品背后的故事、表达的情感等等。但，AI作品真的一定不如人类作品吗？如果是一幅专门为你的情感、经历定制的AI作品，你会为它转身吗？01AI艺术可以很美，但对人类来说意义不大来自杜克大学、滑铁卢大学、剑桥大学等机构的研究人员探索了是否、以及为什么人类不喜欢AI生成的艺术作品。论文链接：https://psyarxiv.com/f9upm/研究人员首先从在线平台招募了150名参与者，并要求参与者对从艺术平台Artbreeder上选择的30件AI艺术品进行不同类别的评价，部分作品被标注为“人类创造”，其中包括15件抽象艺术，15件描述具体的物体或场景。实验结果显示，标记为“人类创造”的艺术品获得的评价明显高于标记为“AI创造”的艺术品，可以看出参与者有潜在“反AI偏见”，他们认为AI作品不是那么有价值，并且不深刻。在故事性、情感等情绪价值的分类结果显示，被标记为人类创造的艺术品同样获得了更高的评价。研究人员认为，当艺术品被标注为人类创造时，参与者更有可能相信和重视艺术品背后的故事，反过来又对艺术品的纯粹感官享受提供了正向支持。研究结果也强调了，人类对艺术的欣赏力不止包括技术，还需要考虑情感、智力、艺术品背后的故事等。02让AI作品画到你心里虽然人类自带“反AI艺术”的心理，但来自马克斯·普朗克经验美学研究所、埃朗根-纽伦堡大学等机构的研究人员在《心理科学》（PsychologicalScience）期刊上发表了一篇论文，揭示了“艺术品审美”的背后原理，他们认为并不是AI作品不够好，而是没有根据观看者进行定制化生成。论文链接：https://journals.sagepub.com/doi/10.1177/09567976231188107研究结果显示，艺术作品的审美吸引力与观看者的个人偏好息息相关。在面对相似图片时，观看人更倾向于选择与自己过往经历、文化背景相关的艺术作品。线下实验设置为了得出自我相关性评估和审美评级之间的初步关联关系，研究人员招募了33名讲德语的实验参与者（29名女性，4名男性），年龄在18岁至55岁之间，所有人视力均正常，且无神经系统疾病。研究人员从博物馆藏品中选取了148张知名度不高的艺术品，涵盖了美洲、欧洲和亚洲文化的各个时间段、风格和流派的作品，参与者需要根据个人的主观愉悦程度对艺术品进行打分。作品列表：https://journals.sagepub.com/doi/suppl/10.1177/09567976231188107/suppl_file/sj-pdf-1-pss-10.1177_09567976231188107.pdf参与者还需要对艺术品与自我相关性进行评分，即自己本身、曾经的经历、身份等相关的程度。除了主观评分外，在实验前，研究人员也对参与者们统计了基本的信息，如教育背景、年龄、性别、是否左撇子、性取向、心理疾病诊断等，并且进行一些艺术和美学相关的教育。线上实验设置为了扩大参与者的规模，研究人员还在网上招募了208名说英语的参与者（135名男性，70名女性，2名其他性别，1人未说明），年龄范围为18-74岁，每人观看42件艺术品，并需要回答一系列问题。其中有两个主观问题比较关键，“这张图片在多大程度上触动了你？”（Towhatextentdidtheimagemoveyou?）以及“你能从图片中感受到多少美？”（Howmuchdidyougetthefeelingofbeauty?）在自我相关性评估环节，参与者重新观看图片后，需要回答“该图像多大程度上与你相关？”（Howself-relevantistheimagetoyou?）实验结果在计算美学评分和自我评估的相关性（correlation）后，研究人员使用三个不同条件的线性混合模型对评分进行预测：1、仅使用参与者自相关评分作为截断2、加入自相关斜率3、加入图像相关的截断和斜率结果发现模型3的预测效果最好。在使用G*Power进行后验统计检验时，效应量（power）达到0.89，说明自相关性和审美评分之间存在比较强的关联。03个性化风格迁移在上述结论的支持下，研究人员进行了第二个实验，以验证AI艺术品和人类作品之间的审美差异来源。实验设置研究人员在线招募了45名参与者（28名男性，15名女性，2人不明），德语流利，年龄在18到55岁之间。研究人员首先从之前的数据中选择了20幅艺术品，覆盖自然、人工内容、室内、室外场景以及不同的建筑结构，然后使用3种迁移风格生成AI作品，共计80张图片，迁移模型论文：https://arxiv.org/pdf/1703.06868.pdf具体的迁移风格根据参与者个人的生活经历、文化背景调查中提到的地点、物体、美食、动物和文物有关。在测试期间，参与者并不知道哪些作品是AI生成的，需要根据直觉来选择每件作品是不熟悉的、熟悉的还是肯定认识的。实验结果使用与之前类似的实验流程后，可以发现参与者的美学评分明显集中在了自相关的维度上，进一步加强了二者之间的相关性。通过自定义风格迁移作品，可以看到，自我关联是影响审美评分的一个重要决定因素，比如某位参与者曾经在赫尔辛基度过了一个完美的假期，他就会更倾向于给赫尔辛基相似风格的图像打高分。在分析自相关与他人相关的艺术作品审美差异时，可以看到自相关的风格评分甚至要超过“大师手绘的真实作品”。04总结艺术品的观赏体验只是人与外部世界互动并被深刻影响的一个典型例子，并且审美品位高度个性化的，每个人都有不同的体验。这两项研究的结论并不矛盾，视觉艺术的审美评级与自我相关性有非常高的关联度，而人类本身的经历又让我们更倾向于选择人类的作品。第二项研究的作者CemUran表示，对于真正的艺术，完全取决于观看者能发现哪些视觉元素，甚至可能都没有意识到具体的元素，所以只是喜欢某些艺术而不知道为什么。不过自相关参考信息如此强烈地吸引观看者，也凸显了个性化内容被滥用的严重危害。随着各种利用推荐算法的内容推荐平台的发展，这一趋势也越来越明显，而深陷其中的用户也都可能没有意识到这个问题。...PC版：https://www.cnbeta.com.tw/articles/soft/1380943.htm手机版：https://m.cnbeta.com.tw/view/1380943.htm

Nightshade用向图像“投毒”的方法以阻止AI训练并帮助保护艺术家

Nightshade用向图像“投毒”的方法以阻止AI训练并帮助保护艺术家《麻省理工科技评论》重点介绍了由芝加哥大学研究人员创建的名为Nightshade的新工具。它的工作原理是在上传图像之前对图像像素进行非常小的更改，这些更改是肉眼无法看到的。这会毒害DALL-E、StableDiffusion和Midjourney等工具使用的训练数据，导致模型以不可预测的方式崩溃。生成式人工智能如何错误地解释被茄属植物毒害的图像的一些例子包括将狗变成猫，将汽车变成牛，将帽子变成蛋糕，将手提包变成烤面包机。它也适用于提示不同的艺术风格：立体派变成动漫，卡通变成印象派，概念艺术变成抽象派。研究人员最近在arXiv上发表的论文将Nightshade描述为一种特定提示的中毒攻击。Nightshade不需要毒害数百万张图像，而是可以用大约50个样本破坏稳定扩散提示，如下图所示。研究人员写道，该工具不仅可以毒害“狗”等特定提示术语，还可以“渗透”到“小狗”、“猎犬”和“哈士奇”等相关概念。它甚至会影响间接相关的图像；例如，中毒“幻想艺术”会将“一条龙”、“指环王中的一座城堡”和“迈克尔·惠兰的一幅画”的提示变成不同的东西。领导了Nightshade创建团队的芝加哥大学教授赵本表示，他希望该工具能够对不尊重艺术家版权和知识产权的人工智能公司起到威慑作用。他承认存在恶意使用的可能性，但要对更大、更强大的模型造成真正的损害，攻击者需要毒害数千张图像，因为这些系统是在数十亿数据样本上进行训练的。生成式人工智能模型训练者还可以使用针对这种做法的防御措施，例如过滤高损失数据、频率分析和其他检测/删除方法，但赵本说它们不是很稳健。一些大型人工智能公司让艺术家可以选择不将他们的作品用于人工智能训练数据集，但这可能是一个艰巨的过程，并且无法解决任何可能已经被废弃的作品。许多人认为艺术家应该可以选择加入而不是必须选择退出。...PC版：https://www.cnbeta.com.tw/articles/soft/1392263.htm手机版：https://m.cnbeta.com.tw/view/1392263.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人