：用Rust编写的GPU加速语言模型(LLM)服务器，可高效提供多个本地LLM模型的服务。

：用Rust编写的GPU加速语言模型(LLM)服务器，可高效提供多个本地LLM模型的服务。主要提供：为多个本地 LLM 模型提供高性能、高效和可靠的服务可选择通过 CUDA 或 Metal 进行 GPU 加速可配置的 LLM 完成任务（提示、召回、停止令牌等）通过 HTTP SSE 流式传输完成响应，使用 WebSockets 聊天使用 JSON 模式对完成输出进行有偏差的采样使用向量数据库（内置文件或 Qdrant 等外部数据库）进行记忆检索接受 PDF 和 DOCX 文件并自动将其分块存储到内存中使用静态 API 密钥或 JWT 标记确保 API 安全简单、单一的二进制+配置文件服务器部署，可水平扩展附加功能：用于轻松测试和微调配置的 Web 客户端用于本地运行模型的单二进制跨平台桌面客户端

在Telegram中查看

相关推荐

：超简单的类GPT语音助手，采用开源大型语言模型 (LLM) 以响应口头请求，完全在树莓派上本地运行。

：超简单的类GPT语音助手，采用开源大型语言模型 (LLM) 以响应口头请求，完全在树莓派上本地运行。它不需要互联网连接或云服务支持。使用按钮触发录音，经过自动语音识别生成文本，然后由 TinyLlama-1.1B LLM 生成回复，并通过 eSpeak 语音合成器产生音频输出。

：为大型语言模型(LLM)设计的结构化生成语言，旨在加速和更好地控制与LLM的交互。

：为大型语言模型(LLM)设计的结构化生成语言，旨在加速和更好地控制与LLM的交互。特点包括：灵活的前端语言，允许轻松编程LLM应用，支持多个连锁生成调用、高级提示技术、控制流、多模式、并行处理和外部交互；具备高性能运行时，使用RadixAttention可以显著加速复杂LLM程序的执行，自动跨多个调用重复使用KV缓存，同时支持连续批处理和张量并行处理。

：一个 python 包，允许Python开发者使用不同的大型语言模型(LLM)并通过简单的界面进行提示工程，提供了加载LLM模

：一个 python 包，允许Python开发者使用不同的大型语言模型(LLM)并通过简单的界面进行提示工程，提供了加载LLM模型、嵌入模型和向量数据库的类，以创建带有自己的提示工程和RAG技术的LLM应用。

：注重隐私的编程助手，可在本地系统上运行候选平台的LLM(语言模型)，可以选择Mistral、CodeLLama等热门的LLM。

：注重隐私的编程助手，可在本地系统上运行候选平台的LLM(语言模型)，可以选择Mistral、CodeLLama等热门的LLM。安装Privy扩展可以从Visual Studio Code Marketplace或Open VSX Registry进行

：提供开发者 API 以加速大型语言模型 (LLM) 项目，LayoutPDFReader 可以解决 PDF 解析中的布局问题，

：提供开发者 API 以加速大型语言模型 (LLM) 项目，LayoutPDFReader 可以解决 PDF 解析中的布局问题，包括章节、段落、链接、表格等信息的提取，使用 LLM Sherpa 需要使用免费的开放 API 服务器，不支持 OCR，仅支持带有文本层的 PDF

：通过使用本地大语言模型 (LLM)，自动推荐函数名称，帮用户进行软件逆向工程

：通过使用本地大语言模型 (LLM)，自动推荐函数名称，帮用户进行软件逆向工程核心特点离线操作：完全在本地CPU/GPU上运行LLM，确保数据隐私和安全。自动函数命名：从反编译器输出中自动建议具有语义意义的函数名称。 Binary Ninja 集成：作为插件与 Binary Ninja 无缝集成。模块化架构：专为轻松扩展而设计，以支持 IDA 和 Ghidra 等其他逆向工程工具。消费类硬件兼容性：经过优化，可在消费级硬件（例如 Apple 芯片架构）上运行。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人