: 专为在普通个人电脑和移动设备上高效推理大型语言模型(LLM)而设计的开源项目。
: 专为在普通个人电脑和移动设备上高效推理大型语言模型(LLM)而设计的开源项目。
核心使用C++14编写,没有第三方依赖(BLAS、SentencePiece等),能在各种设备中无缝运行。
特点
为日常设备进行优化:libLLM经过优化,可在常见的个人电脑上平稳运行,确保大型语言模型的强大功能面向更广泛的用户。
C++代码:采用标准C++14编写,简单高效。
无外部依赖:核心功能无需第三方依赖(BLAS、SentencePiece等),所需的GEMM内核均在内部实现(avx2、avx512)。
支持CUDA:支持使用CUDA加速推理。