Inferflow:高效且高度可配置的大型语言模型(LLM)推理引擎。可以通过简单修改配置文件中的几行内容,而无需编写源代码,来
:高效且高度可配置的大型语言模型(LLM)推理引擎。可以通过简单修改配置文件中的几行内容,而无需编写源代码,来为大多数常见的Transformer模型提供服务。主要特点可扩展且高度可配置:使用Inferflow服务新模型的典型方法是编辑模型规范文件,但不添加/编辑源代码。我们在Inferflow中实现了原子构建块和技术的模块化框架,使其在组合上可推广到新模型。如果该模型中的原子构建块和技术(对于Inferflow)“已知”,则Inferflow可以为该新模型提供服务。3.5位量化:Inferflow实现2位、3位、3.5位、4位、5位、6位和8位量化。在量化方案中,3.5位量化是Inferflow推出的新方案。多GPU推理的混合模型分区:Inferflow支持多GPU推理,具有三种模型分区策略可供选择:按层分区(管道并行)、按张量分区(张量并行)和混合分区(混合并行))。其他推理引擎很少支持混合分区。宽文件格式支持(并安全加载pickle数据):Inferflow支持直接加载多种文件格式的模型,而不依赖于外部转换器。支持的格式包括pickle、safetensors、llama.cppgguf等。众所周知,使用Python代码读取pickle文件存在安全问题。通过在C++中实现简化的pickle解析器,Inferflow支持从pickle数据安全地加载模型。广泛的网络类型支持:支持三种类型的变压器模型:仅解码器模型、仅编码器模型和编码器-解码器模型。GPU/CPU混合推理:支持仅GPU、仅CPU、GPU/CPU混合推理。