: 专为在普通个人电脑和移动设备上高效推理大型语言模型（LLM）而设计的开源项目。

: 专为在普通个人电脑和移动设备上高效推理大型语言模型（LLM）而设计的开源项目。核心使用C++14编写，没有第三方依赖（BLAS、SentencePiece等），能在各种设备中无缝运行。特点为日常设备进行优化：libLLM经过优化，可在常见的个人电脑上平稳运行，确保大型语言模型的强大功能面向更广泛的用户。 C++代码：采用标准C++14编写，简单高效。无外部依赖：核心功能无需第三方依赖（BLAS、SentencePiece等），所需的GEMM内核均在内部实现(avx2、avx512)。支持CUDA：支持使用CUDA加速推理。

在Telegram中查看

相关推荐

可以在个人电脑上运行的语言模型。

可以在个人电脑上运行的语言模型。演示、数据和代码，使用基于LLaMa的~800k GPT-3.5-Turbo Generations训练助理风格的大型语言模型。视频是在 M1 电脑上的演示，未加速

：用Rust编写的GPU加速语言模型(LLM)服务器，可高效提供多个本地LLM模型的服务。

：用Rust编写的GPU加速语言模型(LLM)服务器，可高效提供多个本地LLM模型的服务。主要提供：为多个本地 LLM 模型提供高性能、高效和可靠的服务可选择通过 CUDA 或 Metal 进行 GPU 加速可配置的 LLM 完成任务（提示、召回、停止令牌等）通过 HTTP SSE 流式传输完成响应，使用 WebSockets 聊天使用 JSON 模式对完成输出进行有偏差的采样使用向量数据库（内置文件或 Qdrant 等外部数据库）进行记忆检索接受 PDF 和 DOCX 文件并自动将其分块存储到内存中使用静态 API 密钥或 JWT 标记确保 API 安全简单、单一的二进制+配置文件服务器部署，可水平扩展附加功能：用于轻松测试和微调配置的 Web 客户端用于本地运行模型的单二进制跨平台桌面客户端

：高效且高度可配置的大型语言模型(LLM)推理引擎。可以通过简单修改配置文件中的几行内容，而无需编写源代码，来为大多数常见的Tr

：高效且高度可配置的大型语言模型(LLM)推理引擎。可以通过简单修改配置文件中的几行内容，而无需编写源代码，来为大多数常见的Transformer模型提供服务。主要特点可扩展且高度可配置：使用 Inferflow 服务新模型的典型方法是编辑模型规范文件，但不添加/编辑源代码。我们在 Inferflow 中实现了原子构建块和技术的模块化框架，使其在组合上可推广到新模型。如果该模型中的原子构建块和技术（对于 Inferflow）“已知”，则 Inferflow 可以为该新模型提供服务。 3.5位量化：Inferflow实现2位、3位、3.5位、4位、5位、6位和8位量化。在量化方案中，3.5位量化是Inferflow推出的新方案。多GPU推理的混合模型分区：Inferflow支持多GPU推理，具有三种模型分区策略可供选择：按层分区（管道并行）、按张量分区（张量并行）和混合分区（混合并行））。其他推理引擎很少支持混合分区。宽文件格式支持（并安全加载pickle数据）：Inferflow支持直接加载多种文件格式的模型，而不依赖于外部转换器。支持的格式包括pickle、safetensors、llama.cpp gguf等。众所周知，使用Python代码读取pickle文件存在安全问题。通过在 C++ 中实现简化的 pickle 解析器，Inferflow 支持从 pickle 数据安全地加载模型。广泛的网络类型支持：支持三种类型的变压器模型：仅解码器模型、仅编码器模型和编码器-解码器模型。 GPU/CPU混合推理：支持仅GPU、仅CPU、GPU/CPU混合推理。

苹果取得技术突破：有望在 iPhone 上运行大型语言模型

苹果取得技术突破：有望在 iPhone 上运行大型语言模型 IT之家消息：苹果的人工智能研究人员表示，他们已取得一项重大突破，通过一种创新的闪存利用技术，成功地在内存有限的苹果设备上部署了大型语言模型（LLM）。这一成果有望让更强大的 Siri、实时语言翻译以及融入摄影和增强现实的尖端 AI 功能登陆未来 iPhone。|

：一个开源引擎，用于微调和提供大型语言模型的服务，是定制和提供LLM的最简单方式

：一个开源引擎，用于微调和提供大型语言模型的服务，是定制和提供LLM的最简单方式主要特征适用于你喜爱的模型的即用型 API：部署和服务开源基础模型 - 包括 LLaMA、MPT 和 Falcon。使用 Scale 托管模型或部署到您自己的基础设施。微调基础模型：根据您自己的数据微调开源基础模型，以优化性能。优化推理：LLM Engine 提供推理 API，用于流式响应和动态批处理输入，以实现更高的吞吐量和更低的延迟。开源集成：使用单个命令部署任何。即将推出的功能 K8s 安装文档：我们正在努力记录您自己的基础设施上推理和微调功能的安装和维护。目前，我们的文档涵盖了使用我们的客户端库访问 Scale 的托管基础设施。快速冷启动时间：为了防止 GPU 闲置，LLM Engine 在不使用模型时会自动将模型缩放为零，并在几秒钟内扩展，即使对于大型基础模型也是如此。成本优化：部署人工智能模型比商业模型更便宜，包括冷启动和预热时间。

TidyBot 开源机器人（使用大型语言模型的个性化辅助）

TidyBot 开源机器人（使用大型语言模型的个性化辅助机器人） TidyBot的出现是为了解决家庭清洁的问题，通过训练，它已经学会如何捡起物体并放到合适的位置。在实际场景的测试中，TidyBot可以成功收起85%的物体。这个项目的目标是将基于语言的规划和感知与大型语言模型（LLMs）的少量总结能力结合起来，让TidyBot推断出广泛适用于未来交互的用户偏好，建立能够通过事先与特定人的互动从少量的例子中学习这种偏好的系统。本次开源内容包括： •TidyBot的服务器代码（在GPU工作站上运行） •TidyBot的机器人代码（在移动基础电脑上运行） •3D打印部件的文件 •基准数据集的代码可以看出来几乎是完全开源的状态了，智能机器人会是未来的一大热门，想尝试的人可以通过这个项目入手了。项目官网：开源地址：论文地址：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人