:用Rust编写的GPU加速语言模型(LLM)服务器,可高效提供多个本地LLM模型的服务。
:用Rust编写的GPU加速语言模型(LLM)服务器,可高效提供多个本地LLM模型的服务。
主要提供:
为多个本地 LLM 模型提供高性能、高效和可靠的服务
可选择通过 CUDA 或 Metal 进行 GPU 加速
可配置的 LLM 完成任务(提示、召回、停止令牌等)
通过 HTTP SSE 流式传输完成响应,使用 WebSockets 聊天
使用 JSON 模式对完成输出进行有偏差的采样
使用向量数据库(内置文件或 Qdrant 等外部数据库)进行记忆检索
接受 PDF 和 DOCX 文件并自动将其分块存储到内存中
使用静态 API 密钥或 JWT 标记确保 API 安全
简单、单一的二进制+配置文件服务器部署,可水平扩展
附加功能:
用于轻松测试和微调配置的 Web 客户端
用于本地运行模型的单二进制跨平台桌面客户端