:用Rust编写的GPU加速语言模型(LLM)服务器,可高效提供多个本地LLM模型的服务。

:用Rust编写的GPU加速语言模型(LLM)服务器,可高效提供多个本地LLM模型的服务。 主要提供: 为多个本地 LLM 模型提供高性能、高效和可靠的服务 可选择通过 CUDA 或 Metal 进行 GPU 加速 可配置的 LLM 完成任务(提示、召回、停止令牌等) 通过 HTTP SSE 流式传输完成响应,使用 WebSockets 聊天 使用 JSON 模式对完成输出进行有偏差的采样 使用向量数据库(内置文件或 Qdrant 等外部数据库)进行记忆检索 接受 PDF 和 DOCX 文件并自动将其分块存储到内存中 使用静态 API 密钥或 JWT 标记确保 API 安全 简单、单一的二进制+配置文件服务器部署,可水平扩展 附加功能: 用于轻松测试和微调配置的 Web 客户端 用于本地运行模型的单二进制跨平台桌面客户端

相关推荐

封面图片

:通过GPU本地内存泄漏监听LLM响应

:通过GPU本地内存泄漏监听LLM响应 研究人员发现了一种新的GPU漏洞LeftoverLocals,通过该漏洞攻击者可以读取其他进程中的GPU本地内存数据。这会影响LLM等GPU应用的安全性,文章以llama.cpp为例,演示了如何通过读取本地内存来恢复LLM的响应。测试了多种平台,发现AMD、Apple和高通的GPU存在该漏洞。Nvidia和Intel等则不存在。 攻击者可以通过并行程序来实现该攻击,不需要特殊权限。文章详细解释了技术原理和攻击步骤。由于该漏洞的影响范围很广,作者通过CERT/CC组织进行了协调披露,以便GPU厂商修复。

封面图片

:超简单的类GPT语音助手,采用开源大型语言模型 (LLM) 以响应口头请求,完全在树莓派上本地运行。

:超简单的类GPT语音助手,采用开源大型语言模型 (LLM) 以响应口头请求,完全在树莓派上本地运行。 它不需要互联网连接或云服务支持。使用按钮触发录音,经过自动语音识别生成文本,然后由 TinyLlama-1.1B LLM 生成回复,并通过 eSpeak 语音合成器产生音频输出。

封面图片

:为大型语言模型(LLM)设计的结构化生成语言,旨在加速和更好地控制与LLM的交互。

:为大型语言模型(LLM)设计的结构化生成语言,旨在加速和更好地控制与LLM的交互。 特点包括:灵活的前端语言,允许轻松编程LLM应用,支持多个连锁生成调用、高级提示技术、控制流、多模式、并行处理和外部交互;具备高性能运行时,使用RadixAttention可以显著加速复杂LLM程序的执行,自动跨多个调用重复使用KV缓存,同时支持连续批处理和张量并行处理。

封面图片

:注重隐私的编程助手,可在本地系统上运行候选平台的LLM(语言模型),可以选择Mistral、CodeLLama等热门的LLM。

:注重隐私的编程助手,可在本地系统上运行候选平台的LLM(语言模型),可以选择Mistral、CodeLLama等热门的LLM。安装Privy扩展可以从Visual Studio Code Marketplace或Open VSX Registry进行

封面图片

:提供开发者 API 以加速大型语言模型 (LLM) 项目,LayoutPDFReader 可以解决 PDF 解析中的布局问题,

:提供开发者 API 以加速大型语言模型 (LLM) 项目,LayoutPDFReader 可以解决 PDF 解析中的布局问题,包括章节、段落、链接、表格等信息的提取,使用 LLM Sherpa 需要使用免费的开放 API 服务器,不支持 OCR,仅支持带有文本层的 PDF

封面图片

:通过使用本地大语言模型 (LLM),自动推荐函数名称,帮用户进行软件逆向工程

:通过使用本地大语言模型 (LLM),自动推荐函数名称,帮用户进行软件逆向工程 核心特点 离线操作:完全在本地CPU/GPU上运行LLM,确保数据隐私和安全。 自动函数命名:从反编译器输出中自动建议具有语义意义的函数名称。 Binary Ninja 集成:作为插件与 Binary Ninja 无缝集成。 模块化架构:专为轻松扩展而设计,以支持 IDA 和 Ghidra 等其他逆向工程工具。 消费类硬件兼容性:经过优化,可在消费级硬件(例如 Apple 芯片架构)上运行。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人