Poly:用Rust编写的GPU加速语言模型(LLM)服务器,可高效提供多个本地LLM模型的服务。
:用Rust编写的GPU加速语言模型(LLM)服务器,可高效提供多个本地LLM模型的服务。主要提供:为多个本地LLM模型提供高性能、高效和可靠的服务可选择通过CUDA或Metal进行GPU加速可配置的LLM完成任务(提示、召回、停止令牌等)通过HTTPSSE流式传输完成响应,使用WebSockets聊天使用JSON模式对完成输出进行有偏差的采样使用向量数据库(内置文件或Qdrant等外部数据库)进行记忆检索接受PDF和DOCX文件并自动将其分块存储到内存中使用静态API密钥或JWT标记确保API安全简单、单一的二进制+配置文件服务器部署,可水平扩展附加功能:用于轻松测试和微调配置的Web客户端用于本地运行模型的单二进制跨平台桌面客户端