：高吞吐量和内存高效的LLM推理和服务引擎，针对LLM模型的推理引擎，具有优化的性能，支持量化和稀疏化等最新优化技术。通过nm-

优化Web服务器以实现高吞吐量和低延迟 |

高效的大型语言模型(LLM)压缩工具，支持多种先进的压缩方法和多种推理后端 | #工具

: 专为在普通个人电脑和移动设备上高效推理大型语言模型（LLM）而设计的开源项目。

: 专为在普通个人电脑和移动设备上高效推理大型语言模型（LLM）而设计的开源项目。核心使用C++14编写，没有第三方依赖（BLAS、SentencePiece等），能在各种设备中无缝运行。特点为日常设备进行优化：libLLM经过优化，可在常见的个人电脑上平稳运行，确保大型语言模型的强大功能面向更广泛的用户。 C++代码：采用标准C++14编写，简单高效。无外部依赖：核心功能无需第三方依赖（BLAS、SentencePiece等），所需的GEMM内核均在内部实现(avx2、avx512)。支持CUDA：支持使用CUDA加速推理。

，旨在从头开始构建一个全尺度、高性能LLM，使用Jax进行训练和推理，涵盖了roofline分析、编译、分片、性能分析等内容

：高效且高度可配置的大型语言模型(LLM)推理引擎。可以通过简单修改配置文件中的几行内容，而无需编写源代码，来为大多数常见的Tr

：高效且高度可配置的大型语言模型(LLM)推理引擎。可以通过简单修改配置文件中的几行内容，而无需编写源代码，来为大多数常见的Transformer模型提供服务。主要特点可扩展且高度可配置：使用 Inferflow 服务新模型的典型方法是编辑模型规范文件，但不添加/编辑源代码。我们在 Inferflow 中实现了原子构建块和技术的模块化框架，使其在组合上可推广到新模型。如果该模型中的原子构建块和技术（对于 Inferflow）“已知”，则 Inferflow 可以为该新模型提供服务。 3.5位量化：Inferflow实现2位、3位、3.5位、4位、5位、6位和8位量化。在量化方案中，3.5位量化是Inferflow推出的新方案。多GPU推理的混合模型分区：Inferflow支持多GPU推理，具有三种模型分区策略可供选择：按层分区（管道并行）、按张量分区（张量并行）和混合分区（混合并行））。其他推理引擎很少支持混合分区。宽文件格式支持（并安全加载pickle数据）：Inferflow支持直接加载多种文件格式的模型，而不依赖于外部转换器。支持的格式包括pickle、safetensors、llama.cpp gguf等。众所周知，使用Python代码读取pickle文件存在安全问题。通过在 C++ 中实现简化的 pickle 解析器，Inferflow 支持从 pickle 数据安全地加载模型。广泛的网络类型支持：支持三种类型的变压器模型：仅解码器模型、仅编码器模型和编码器-解码器模型。 GPU/CPU混合推理：支持仅GPU、仅CPU、GPU/CPU混合推理。

：高吞吐量和内存高效的LLM推理和服务引擎，针对LLM模型的推理引擎，具有优化的性能，支持量化和稀疏化等最新优化技术。通过nm-

相关推荐

优化Web服务器以实现高吞吐量和低延迟 |

高效的大型语言模型(LLM)压缩工具，支持多种先进的压缩方法和多种推理后端 | #工具

: 专为在普通个人电脑和移动设备上高效推理大型语言模型（LLM）而设计的开源项目。

，旨在从头开始构建一个全尺度、高性能LLM，使用Jax进行训练和推理，涵盖了roofline分析、编译、分片、性能分析等内容

：高效且高度可配置的大型语言模型(LLM)推理引擎。可以通过简单修改配置文件中的几行内容，而无需编写源代码，来为大多数常见的Tr

代码生成模型的高效微调、推理和评估工具，专为处理代码生成任务的挑战而设计，提供显著的性能提升，包括高效的注意力实现、极速推理和简