:基于 MLX 和 CLIP 模型的简单而强大的相似图像搜索网页应用

:基于 MLX 和 CLIP 模型的简单而强大的相似图像搜索网页应用 特点 使用 CLIP 模型快速高效的图像搜索 仅适用于 Apple Silicon (MLX) 使用 SQLite 和 Chroma 持久存储图像嵌入 Web 界面,方便交互和探索 安全的图像服务和处理 用于性能分析的日志记录和监控 使用环境变量的可配置设置

相关推荐

封面图片

一个强大的图像标记基础模型:

一个强大的图像标记基础模型: RAM 采用一种新的图像标记范例,可高精度地识别任何常见类别,并利用大规模图像文本对进行训练,而不是手动注释。 RAM 的开发包括四个关键步骤: 1. 通过自动文本语义解析大规模获取无注释图像标签; 2. 使用统一标题和标记任务,训练初步模型进行自动注释,分别由原始文本和解析标签监督; 3. 利用数据引擎生成额外注释并清除不正确的注释; 4. 利用处理后的数据对模型进行再训练,并使用更小但质量更高的数据集进行微调。 经过众多基准测试评估,RAM 的标记能力颇为优秀,效果明显优于 CLIP 和 BLIP。值得注意的是,RAM 甚至超越了完全监督的方式,甚至可媲美 Google API。

封面图片

ChatGPT 移动应用程序现在可以通过 Bing搜索网络。

ChatGPT 移动应用程序现在可以通过 Bing搜索网络。 今天,OpenAI宣布ChatGPT Plus 的订阅者可以使用 ChatGPT 移动应用程序上名为“浏览”的新功能,让 ChatGPT 在 Bing 中搜索问题的答案。 要尝试它,请在应用程序设置的 "新功能 "启用浏览功能。然后在模型切换器中选择GPT-4,并在下拉菜单中选择 "用Bing浏览"。

封面图片

:用于快速添加和编辑图像标签和描述的跨平台桌面应用,旨在为生成器式 AI 模型(如 Stable Diffusion)创建图像数

:用于快速添加和编辑图像标签和描述的跨平台桌面应用,旨在为生成器式 AI 模型(如 Stable Diffusion)创建图像数据集,支持自动生成描述。 特征 键盘友好的界面,可快速标记 根据您自己最常用的标签自动完成标签 集成稳定扩散令牌计数器 使用 CogVLM、LLaVA、WD Tagger 等模型自动生成标题和标签 可选择加载 4 位自动字幕模型以减少 VRAM 使用 批量标签操作,对标签进行重命名、删除、排序等操作 高级图像列表过滤

封面图片

GitHub上一款开源的图像修复工具:Lama Cleaner,基于 SOTA AI 模型构建,功能颇为齐全。

GitHub上一款开源的图像修复工具:Lama Cleaner,基于 SOTA AI 模型构建,功能颇为齐全。 可用于快速去除图像中各种物品、人物、字体、水印等对象,并支持老照片修复、文本替换图像内容等。 | #工具

封面图片

Stable Diffusion发布了新的图像模型SDXL 0.9

Stable Diffusion发布了新的图像模型SDXL 0.9 这是文本到图像模型的一项突破性发展,相比前身在图像构成和细节上有显著的改进。SDXL 0.9的应用超越了传统的边界,可以用于电影、电视、音乐和教学视频,以及设计和工业用途。 SDXL 0.9可以在消费级GPU上运行,只需要Windows 10或11,或Linux操作系统,16GB RAM,以及至少有8GB VRAM的Nvidia GeForce RTX 20显卡(或更高标准)。Linux用户也可以使用配备16GB VRAM的兼容AMD卡。 SDXL 0.9的功能不仅限于基本的文本提示,还提供了如图像到图像提示(输入一张图像以获取该图像的变体)、修复(重构图像的缺失部分)和扩展(创建现有图像的无缝扩展)等功能。#SD 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

封面图片

:高级的多模态 AI 模型,旨在通过集成其他数据模态(如图像、音频、3D 和视频内容)来扩展传统语言处理系统的功能。

:高级的多模态 AI 模型,旨在通过集成其他数据模态(如图像、音频、3D 和视频内容)来扩展传统语言处理系统的功能。 开源 OmniFusion 核心是 Mistral-7B。该模型有两个版本:第一个使用一个视觉编码器 CLIP-ViT-L,第二个使用两个编码器(CLIP-ViT-L 和 Dino V2)。最初专注于图像,我们选择 CLIP-ViT-L 作为视觉编码器,因为它具有高效的信息传输能力。 OmniFusion 最重要的组件是它的适配器,这是一种允许语言模型解释和合并来自不同模式的信息的机制。对于单编码器版本,适配器是单层四头变压器层,与更简单的线性层或 MLP 结构相比,它表现出了卓越的性能。具有两个编码器的模型使用一个适配器,该适配器从视觉编码器的所有层收集特征,该适配器没有注意层。 该适配器从视觉编码器(不包括 CLS 令牌)获取嵌入,并将它们映射到与语言模型兼容的文本嵌入。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人