:多模态、函数调用驱动的LLM webui,旨在与Mixtral 8x7B + TabbyAPI一起使用,提供了广泛的功能:

:多模态、函数调用驱动的LLM webui,旨在与Mixtral 8x7B + TabbyAPI一起使用,提供了广泛的功能: 使用 DuckDuckGo 和网络抓取功能进行互联网搜索。 使用 comfyui 生成图像。 使用 sharegpt4v(通过 llama.cpp 的服务器)、OCR 和 Yolo 输入图像。 使用nmap进行端口扫描。 Wolfram Alpha 集成。 Python 解释器。 RAG 可对 PDF 和各种文本文件进行语义搜索。 90% 的 Web 部件(HTML、JS、CSS 和 Flask)完全由 Mixtral 编写。

相关推荐

封面图片

一种简单的数据标注工具,支持使用AI进行标注,提供了多种功能,包括图像标注、文本检测和识别、关键信息提取等。

一种简单的数据标注工具,支持使用AI进行标注,提供了多种功能,包括图像标注、文本检测和识别、关键信息提取等。 支持多种语言,包括英文和中文。该工具具有高级检测器,例如YOLOv6、YOLOv7、YOLOv8和DETR系列,可以无缝转换为行业标准格式,如COCO-JSON、VOC-XML和YOLOv5-TXT。 | #工具

封面图片

:用Rust编写的GPU加速语言模型(LLM)服务器,可高效提供多个本地LLM模型的服务。

:用Rust编写的GPU加速语言模型(LLM)服务器,可高效提供多个本地LLM模型的服务。 主要提供: 为多个本地 LLM 模型提供高性能、高效和可靠的服务 可选择通过 CUDA 或 Metal 进行 GPU 加速 可配置的 LLM 完成任务(提示、召回、停止令牌等) 通过 HTTP SSE 流式传输完成响应,使用 WebSockets 聊天 使用 JSON 模式对完成输出进行有偏差的采样 使用向量数据库(内置文件或 Qdrant 等外部数据库)进行记忆检索 接受 PDF 和 DOCX 文件并自动将其分块存储到内存中 使用静态 API 密钥或 JWT 标记确保 API 安全 简单、单一的二进制+配置文件服务器部署,可水平扩展 附加功能: 用于轻松测试和微调配置的 Web 客户端 用于本地运行模型的单二进制跨平台桌面客户端

封面图片

RPG-DiffusionMaster是一个全新的无需训练的文本到图像生成/编辑框架,利用多模态LLM的链式推理能力增强文本到图

RPG-DiffusionMaster是一个全新的无需训练的文本到图像生成/编辑框架,利用多模态LLM的链式推理能力增强文本到图像扩散模型的组合性。 该框架采用MLLM作为全局规划器,将复杂图像生成过程分解为多个子区域内的简单生成任务。同时提出了互补的区域扩散以实现区域化的组合生成。此外,在提出的RPG框架中闭环地集成了文本引导的图像生成和编辑,从而增强了泛化能力。 大量实验证明,RPG-DiffusionMaster在多类别对象组合和文本-图像语义对齐方面优于DALL-E 3和SDXL等最先进的文本到图像扩散模型。特别地,RPG框架与各种MLLM架构(例如MiniGPT-4)和扩散骨干(例如ControlNet)兼容性广泛。 需求人群: "RPG-DiffusionMaster可用于文本到图像生成和编辑,特别擅长处理复杂的文本提示和多对象多属性关系。" 使用场景示例: 使用RPG-DiffusionMaster生成包含多个对象的图像 利用RPG-DiffusionMaster编辑图像以实现文本语义对齐 采用RPG-DiffusionMaster进行文本到图像生成的实验 产品特色: 利用多模态LLM进行全局规划 将复杂图像生成过程分解为简单生成任务 实现区域化的组合生成 闭环集成文本引导的图像生成和编辑 提高泛化能力 优于其他文本到图像扩散模型 | #框架

封面图片

:高级的多模态 AI 模型,旨在通过集成其他数据模态(如图像、音频、3D 和视频内容)来扩展传统语言处理系统的功能。

:高级的多模态 AI 模型,旨在通过集成其他数据模态(如图像、音频、3D 和视频内容)来扩展传统语言处理系统的功能。 开源 OmniFusion 核心是 Mistral-7B。该模型有两个版本:第一个使用一个视觉编码器 CLIP-ViT-L,第二个使用两个编码器(CLIP-ViT-L 和 Dino V2)。最初专注于图像,我们选择 CLIP-ViT-L 作为视觉编码器,因为它具有高效的信息传输能力。 OmniFusion 最重要的组件是它的适配器,这是一种允许语言模型解释和合并来自不同模式的信息的机制。对于单编码器版本,适配器是单层四头变压器层,与更简单的线性层或 MLP 结构相比,它表现出了卓越的性能。具有两个编码器的模型使用一个适配器,该适配器从视觉编码器的所有层收集特征,该适配器没有注意层。 该适配器从视觉编码器(不包括 CLS 令牌)获取嵌入,并将它们映射到与语言模型兼容的文本嵌入。

封面图片

:通过使用本地大语言模型 (LLM),自动推荐函数名称,帮用户进行软件逆向工程

:通过使用本地大语言模型 (LLM),自动推荐函数名称,帮用户进行软件逆向工程 核心特点 离线操作:完全在本地CPU/GPU上运行LLM,确保数据隐私和安全。 自动函数命名:从反编译器输出中自动建议具有语义意义的函数名称。 Binary Ninja 集成:作为插件与 Binary Ninja 无缝集成。 模块化架构:专为轻松扩展而设计,以支持 IDA 和 Ghidra 等其他逆向工程工具。 消费类硬件兼容性:经过优化,可在消费级硬件(例如 Apple 芯片架构)上运行。

封面图片

一个现代且实际快速的模态虚拟终端仿真器,适合日常使用。它的目标是具有现代功能思维的高级用户。该项目处于测试阶段和积极开发中

一个现代且实际快速的模态虚拟终端仿真器,适合日常使用。它的目标是具有现代功能思维的高级用户。该项目处于测试阶段和积极开发中 适用于所有 4 个主要平台,Linux、OS/X、FreeBSD、Windows。 GPU 加速渲染。 字体连字支持(例如在 Fira Code 中)。 Unicode:表情符号支持(-: - 包括 ZWJ、VS15、VS16 表情符号 :-) Unicode:字形集群支持 粗体和斜体字体 高 DPI 支持。 垂直线标记(快速跳转到您历史记录中的标记!) 用于改进选择和复制粘贴体验的类似 Vi 的输入模式以及类似 Vi 的scrolloff功能。 在 Linux 上使用 Windows 10 或 KDE 窗口管理器时透明背景模糊。 模糊背景图像支持。 运行时配置重新加载 256 色和真彩色支持 键绑定自定义 颜色方案 配置文件(分组定制:配色方案、登录外壳和相关行为) 同步渲染(通过SM ? 2026/ RM ? 2026) 文本重排(可通过SM ? 2028/配置RM ? 2028) 通过OSC 8的可点击超链接 通过 OSC 52 设置剪贴板 Sixel 内联图像 终端页面缓冲区捕获VT扩展以快速提取内容。 内置Fira Code 启发的进度条支持。 只读模式,防止用户对正在运行的应用程序进行意外输入,例如Ctrl+ C。 VT320 主机可编程和指示灯状态线支持。 以及更多 ...

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人