Poly:用Rust编写的GPU加速语言模型(LLM)服务器,可高效提供多个本地LLM模型的服务。

:用Rust编写的GPU加速语言模型(LLM)服务器,可高效提供多个本地LLM模型的服务。主要提供:为多个本地LLM模型提供高性能、高效和可靠的服务可选择通过CUDA或Metal进行GPU加速可配置的LLM完成任务(提示、召回、停止令牌等)通过HTTPSSE流式传输完成响应,使用WebSockets聊天使用JSON模式对完成输出进行有偏差的采样使用向量数据库(内置文件或Qdrant等外部数据库)进行记忆检索接受PDF和DOCX文件并自动将其分块存储到内存中使用静态API密钥或JWT标记确保API安全简单、单一的二进制+配置文件服务器部署,可水平扩展附加功能:用于轻松测试和微调配置的Web客户端用于本地运行模型的单二进制跨平台桌面客户端

相关推荐

封面图片

Inferflow:高效且高度可配置的大型语言模型(LLM)推理引擎。可以通过简单修改配置文件中的几行内容,而无需编写源代码,来

:高效且高度可配置的大型语言模型(LLM)推理引擎。可以通过简单修改配置文件中的几行内容,而无需编写源代码,来为大多数常见的Transformer模型提供服务。主要特点可扩展且高度可配置:使用Inferflow服务新模型的典型方法是编辑模型规范文件,但不添加/编辑源代码。我们在Inferflow中实现了原子构建块和技术的模块化框架,使其在组合上可推广到新模型。如果该模型中的原子构建块和技术(对于Inferflow)“已知”,则Inferflow可以为该新模型提供服务。3.5位量化:Inferflow实现2位、3位、3.5位、4位、5位、6位和8位量化。在量化方案中,3.5位量化是Inferflow推出的新方案。多GPU推理的混合模型分区:Inferflow支持多GPU推理,具有三种模型分区策略可供选择:按层分区(管道并行)、按张量分区(张量并行)和混合分区(混合并行))。其他推理引擎很少支持混合分区。宽文件格式支持(并安全加载pickle数据):Inferflow支持直接加载多种文件格式的模型,而不依赖于外部转换器。支持的格式包括pickle、safetensors、llama.cppgguf等。众所周知,使用Python代码读取pickle文件存在安全问题。通过在C++中实现简化的pickle解析器,Inferflow支持从pickle数据安全地加载模型。广泛的网络类型支持:支持三种类型的变压器模型:仅解码器模型、仅编码器模型和编码器-解码器模型。GPU/CPU混合推理:支持仅GPU、仅CPU、GPU/CPU混合推理。

封面图片

ReverserAI:通过使用本地大语言模型 (LLM),自动推荐函数名称,帮用户进行软件逆向工程

:通过使用本地大语言模型(LLM),自动推荐函数名称,帮用户进行软件逆向工程核心特点离线操作:完全在本地CPU/GPU上运行LLM,确保数据隐私和安全。自动函数命名:从反编译器输出中自动建议具有语义意义的函数名称。BinaryNinja集成:作为插件与BinaryNinja无缝集成。模块化架构:专为轻松扩展而设计,以支持IDA和Ghidra等其他逆向工程工具。消费类硬件兼容性:经过优化,可在消费级硬件(例如Apple芯片架构)上运行。

封面图片

Opera 成为首个内置本地 AI 模型的浏览器

Opera成为首个内置本地AI模型的浏览器当地时间4月3日,Opera宣布将在开发者流中为其OperaOne浏览器中添加对来自大约50个模型系列的150个本地LLM(大型语言模型)变体的实验性支持。此举标志着首次可以通过内置功能从浏览器轻松访问和管理本地LLM。本地AI模型是Opera在线AriaAI服务的免费补充。支持的本地LLM包括:Meta的Llama、Vicuna、谷歌的Gemma、MistralAI的Mixtral等。使用本地大型语言模型意味着用户的数据保存在本地设备上,使他们能够使用生成式人工智能,而无需将信息发送到服务器。——

封面图片

Rust编写的Redox操作系统已支持USB键盘和鼠标

Rust编写的Redox操作系统已支持USB键盘和鼠标RedoxOS项目发布了2024年4月状态报告,重点介绍了过去几周取得的进展:https://redox-os.org/RedoxOS最近的变化包括调整GCC,使其在该平台上默认构建静态二进制文件;重做USBHID驱动程序,以完成对USB键盘和鼠标的支持;在ARM64下使用QEMU的RedoxOS现在可以运行其Orbital桌面(仍有待在真实硬件上实现);增强其内核的futex实现;文档改进以及其他变化。虽然USB键盘和鼠标现在可以使用最新的RedoxOS,但由于驱动程序使用轮询,目前USB输入设备的性能略有下降。USB集线器在RedoxOS上还没有得到很好的支持,因此也有可能出现问题。不过,RedoxOS似乎已经超越了GNUHurd,因为在上次检查时,GNUHurd仍不支持USB。有关RedoxOS近期进展的更多详情,请参阅Redox-OS.org上的本月状态报告。...PC版:https://www.cnbeta.com.tw/articles/soft/1429257.htm手机版:https://m.cnbeta.com.tw/view/1429257.htm

封面图片

LLM Engine:一个开源引擎,用于微调和提供大型语言模型的服务,是定制和提供LLM的最简单方式

:一个开源引擎,用于微调和提供大型语言模型的服务,是定制和提供LLM的最简单方式主要特征适用于你喜爱的模型的即用型API:部署和服务开源基础模型-包括LLaMA、MPT和Falcon。使用Scale托管模型或部署到您自己的基础设施。微调基础模型:根据您自己的数据微调开源基础模型,以优化性能。优化推理:LLMEngine提供推理API,用于流式响应和动态批处理输入,以实现更高的吞吐量和更低的延迟。开源集成:使用单个命令部署任何。即将推出的功能K8s安装文档:我们正在努力记录您自己的基础设施上推理和微调功能的安装和维护。目前,我们的文档涵盖了使用我们的客户端库访问Scale的托管基础​​设施。快速冷启动时间:为了防止GPU闲置,LLMEngine在不使用模型时会自动将模型缩放为零,并在几秒钟内扩展,即使对于大型基础模型也是如此。成本优化:部署人工智能模型比商业模型更便宜,包括冷启动和预热时间。

封面图片

vivo 自研蓝河操作系统 BlueOS 发布:支持大模型,Rust 语言编写框架

vivo自研蓝河操作系统BlueOS发布:支持大模型,Rust语言编写框架在今日的2023vivo开发者大会上,vivo自研蓝河操作系统BlueOS发布。蓝河操作系统号称一款面向未来的自研智慧操作系统,支持大模型、多模态交互,还号称是全球首款用Rust语言来编写系统框架的操作系统。在大模型能力的加持下,蓝河操作系统扩展了输入能力,支持声音、图片、文字、视频、手势、手语、脑波等的识别。同时,支持应用开发新范式,能够帮你自动编写代码、生成专属桌面、壁纸、主题等。该系统支持各类配置运行,包括200MHzCPU和32MB内存的设备。蓝河操作系统支持BlueXlink连接协议,采用分布式设计理念,兼容行业标准协议,让数据可以在多设备间完成自由、安全的流转和访问,可服务于智能家居、智慧出行、智慧办公多种场景。()投稿:@ZaiHuaBot频道:@TestFlightCN

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人