一个强大的图像标记基础模型：

一个强大的图像标记基础模型： RAM 采用一种新的图像标记范例，可高精度地识别任何常见类别，并利用大规模图像文本对进行训练，而不是手动注释。 RAM 的开发包括四个关键步骤： 1. 通过自动文本语义解析大规模获取无注释图像标签； 2. 使用统一标题和标记任务，训练初步模型进行自动注释，分别由原始文本和解析标签监督； 3. 利用数据引擎生成额外注释并清除不正确的注释； 4. 利用处理后的数据对模型进行再训练，并使用更小但质量更高的数据集进行微调。经过众多基准测试评估，RAM 的标记能力颇为优秀，效果明显优于 CLIP 和 BLIP。值得注意的是，RAM 甚至超越了完全监督的方式，甚至可媲美 Google API。

在Telegram中查看

相关推荐

Stability AI产量很高啊，推出了一个新的 AI 图像生成模型Stable Cascade，还会发布对应的微调、Cont

Stability AI产量很高啊，推出了一个新的 AI 图像生成模型Stable Cascade，还会发布对应的微调、ControlNet 和 LoRA 训练的脚本。这个模型基于Würstchen架构，可以显著降低模型训练的算力成本，比 SD2.1 的算力成本降低了 10 倍左右。另外推理速度会比现有的 SD 模型快一倍左右。更多功能：除了标准的文本到图像生成之外，Stable Cascade 还可以执行图像变化和图像到图像生成。会跟随模型一起发布的 Controlnet：局部重绘：输入与文本提示附带的蒙版配对的图像。该模型根据提供的文本提示填充图像的遮罩部分。 Canny Edge：通过跟踪输入到模型的现有图像的边缘来生成新图像。该测试也可以从草图进行扩展。 2x超分辨率：也可用于C阶段生成的潜在空间。了解更多：

RPG-DiffusionMaster是一个全新的无需训练的文本到图像生成/编辑框架，利用多模态LLM的链式推理能力增强文本到图

RPG-DiffusionMaster是一个全新的无需训练的文本到图像生成/编辑框架，利用多模态LLM的链式推理能力增强文本到图像扩散模型的组合性。该框架采用MLLM作为全局规划器，将复杂图像生成过程分解为多个子区域内的简单生成任务。同时提出了互补的区域扩散以实现区域化的组合生成。此外，在提出的RPG框架中闭环地集成了文本引导的图像生成和编辑，从而增强了泛化能力。大量实验证明，RPG-DiffusionMaster在多类别对象组合和文本-图像语义对齐方面优于DALL-E 3和SDXL等最先进的文本到图像扩散模型。特别地，RPG框架与各种MLLM架构（例如MiniGPT-4）和扩散骨干（例如ControlNet）兼容性广泛。需求人群： "RPG-DiffusionMaster可用于文本到图像生成和编辑，特别擅长处理复杂的文本提示和多对象多属性关系。" 使用场景示例：使用RPG-DiffusionMaster生成包含多个对象的图像利用RPG-DiffusionMaster编辑图像以实现文本语义对齐采用RPG-DiffusionMaster进行文本到图像生成的实验产品特色：利用多模态LLM进行全局规划将复杂图像生成过程分解为简单生成任务实现区域化的组合生成闭环集成文本引导的图像生成和编辑提高泛化能力优于其他文本到图像扩散模型 | #框架

狡猾的人工智能模型故意破坏训练图像以规避版权问题

狡猾的人工智能模型故意破坏训练图像以规避版权问题 Ambient Diffusion 是一种文本到图像的人工智能模型，它通过使用严重破坏的图像来保护艺术家的版权。文本到图像生成器的一个大问题是，它们能够复制用来训练它们的原创作品，从而侵犯艺术家的版权。根据美国法律，如果你创作了原创作品并将其"固定"为有形的形式，你就拥有了它的版权字面意思是复制它的权利。在大多数情况下，未经创作者授权，不得使用受版权保护的图片。今年5 月，Google母公司 Alphabet 遭到一群艺术家的集体版权诉讼，声称Google未经许可使用了他们的作品来训练其人工智能图像生成器 Imagen。Stability AI、Midjourney 和 DeviantArt（它们都使用了 Stability 的 Stable Diffusion 工具）也面临着类似的诉讼。为了避免这个问题，德克萨斯大学奥斯汀分校和加州大学伯克利分校的研究人员开发了一种基于扩散的生成式人工智能框架，该框架只对已损坏到无法识别的图像进行训练，从而消除了人工智能记忆和复制原创作品的可能性。扩散模型是一种先进的机器学习算法，它通过向数据集逐步添加噪声来生成高质量的数据，然后学习逆转这一过程。最近的研究表明，这些模型可以记忆训练集中的示例。这显然会对隐私、安全和版权产生影响。这里有一个与艺术品无关的例子：人工智能需要接受 X 光扫描训练，但不能记住特定病人的图像，否则就会侵犯病人的隐私。为了避免这种情况，模型制作者可以引入图像损坏。研究人员利用他们的环境扩散框架证明，只需使用高度损坏的样本，就能训练扩散模型生成高质量的图像。根据"干净"（左）和损坏（右）的训练图像生成的环境扩散输出结果上图显示了在使用损坏时图像输出的差异。研究人员首先用 CelebA-HQ 高质量名人图片数据库中的 3000 张"干净"图片对模型进行了训练。根据提示，该模型生成的图像与原图几乎完全相同（左图）。然后，他们使用 3000 张高度损坏的图像对模型进行了重新训练，其中多达 90% 的单个像素被随机屏蔽。虽然模型生成的人脸栩栩如生，但结果却大相径庭（右图）。UT奥斯汀分校计算机科学教授亚当-克里万斯（Adam Klivans）是这项研究的共同作者，他表示："从黑洞成像到某些类型的核磁共振成像扫描，基本上任何昂贵或不可能拥有全套未损坏数据的研究都会如此。"与现有的文本到图像生成器一样，其结果并非每次都完美无缺。关键是，艺术家们知道像 Ambient Diffusion 这样的模型不会记住并复制他们的原创作品，就可以稍稍放心了。它能阻止其他人工智能模型记住并复制他们的原始图像吗？不会，但这就是法院的职责所在。研究人员已将他们的代码和环境扩散模型开源，以鼓励进一步的研究。可在GitHub 上查阅。该研究发表在预印本网站arXiv 上。 ... PC版：手机版：

华为发布 DiT 架构的图像生成模型，可以直出 4K 分辨率图像。

华为发布 DiT 架构的图像生成模型，可以直出 4K 分辨率图像。论文简介：我们引入了 PixArt-\Sigma,一个能够直接生成 4K 分辨率图像的 Diffusion Transformer (Diffusion Transformer, DiT) 模型。相比其前身 PixArt-\alpha,PixArt-\Sigma 有了显著进步,提供了明显更高保真度的图像,并改进了与文本提示的一致性。 PixArt-\Sigma 的一个关键特点是其训练效率。借助 PixArt-\alpha 的基础预训练,它通过合并更高质量的数据,从"较弱"的基线演变为"较强"的模型,我们将这个过程称为"弱到强训练"。PixArt-\Sigma 的进步主要体现在两个方面: 高质量训练数据:PixArt-\Sigma 结合了更高质量的图像数据,与更精确和详细的图像标题配对。高效的 Token 压缩:我们在 DiT 框架内提出了一个新的注意力模块,可以压缩键 (Key) 和值 (Value),显著提高效率,并促进超高分辨率图像生成。得益于这些改进,PixArt-\Sigma 以显著较小的模型规模 (6 亿参数) 实现了优于现有文本到图像扩散模型 (如 SDXL (26 亿参数) 和 SD Cascade (51 亿参数)) 的图像质量和用户提示遵从能力。此外,PixArt-\Sigma 生成 4K 图像的能力支持创建高分辨率海报和壁纸,有效地增强了电影和游戏等行业中高质量视觉内容的制作。项目地址：

已经有人发布了第一个基于Stable Cascade微调的模型HelloWorld SC 1B。

已经有人发布了第一个基于Stable Cascade微调的模型HelloWorld SC 1B。看起来效果不错，不过还是没有比 SDXL 好太多目前微调 SC 模型的成本也很高。这个模型总共使用了740张真实的训练图像，涵盖肖像、科幻等主题。所有图像均使用我们的开源 GPT4V 标记器进行标记。使用的显卡是一张 48G VRAM RTX6000ada。总训练时间为3.5小时。上述参数在训练时会占用约45G的显存。下面是一些作者的图片示例，这里下载模型：

：最新的高性能全开源文本嵌入模型

：最新的高性能全开源文本嵌入模型 Nomic发布了第一个完全开源的文本嵌入模型Nomic Embed，其文本长度可达8192，性能超过OpenAI的Ada和其他开源模型。 Nomic Embed的模型权重、训练代码和用于训练的数据集都是完全开源的，可以进行全面审计。 Nomic Embed可以通过Nomic Atlas嵌入API进行商业部署，提供100万免费调用量，也可以通过Nomic Atlas企业版进行可靠、合规的企业级部署。文本嵌入是现代NLP中一个关键组件，Nomic Embed通过多阶段的对比训练获得。首先预训练BERT，然后在大规模非监督数据上进行对比训练，最后在小规模标注数据上微调。 Nomic Embed在多个基准测试中表现强劲，尤其是在长文本任务上优于Ada。它提供了一个高性能且可审计的开源文本嵌入方案。 Nomic还发布了所有用于训练的数据，以实现完全的模型可审计性。希望社区可以基于Nomic Embed继续推进开源AI。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人