本地 LLM 推理项目大列表 |

#go语言项目带星大列表

：LLM检索增强生成(RAG)相关资源大列表，包括论文、资源和工具等

: 专为在普通个人电脑和移动设备上高效推理大型语言模型（LLM）而设计的开源项目。

: 专为在普通个人电脑和移动设备上高效推理大型语言模型（LLM）而设计的开源项目。核心使用C++14编写，没有第三方依赖（BLAS、SentencePiece等），能在各种设备中无缝运行。特点为日常设备进行优化：libLLM经过优化，可在常见的个人电脑上平稳运行，确保大型语言模型的强大功能面向更广泛的用户。 C++代码：采用标准C++14编写，简单高效。无外部依赖：核心功能无需第三方依赖（BLAS、SentencePiece等），所需的GEMM内核均在内部实现(avx2、avx512)。支持CUDA：支持使用CUDA加速推理。

：通过GPU本地内存泄漏监听LLM响应

：通过GPU本地内存泄漏监听LLM响应研究人员发现了一种新的GPU漏洞LeftoverLocals，通过该漏洞攻击者可以读取其他进程中的GPU本地内存数据。这会影响LLM等GPU应用的安全性，文章以llama.cpp为例，演示了如何通过读取本地内存来恢复LLM的响应。测试了多种平台，发现AMD、Apple和高通的GPU存在该漏洞。Nvidia和Intel等则不存在。攻击者可以通过并行程序来实现该攻击，不需要特殊权限。文章详细解释了技术原理和攻击步骤。由于该漏洞的影响范围很广，作者通过CERT/CC组织进行了协调披露，以便GPU厂商修复。

本地 LLM 推理项目大列表 |

相关推荐

#go语言项目带星大列表

：LLM检索增强生成(RAG)相关资源大列表，包括论文、资源和工具等

: 专为在普通个人电脑和移动设备上高效推理大型语言模型（LLM）而设计的开源项目。

：通过GPU本地内存泄漏监听LLM响应

Open Interpreter允许LLM在本地运行代码

：基于TensorRT实现的Streaming-LLM技术，旨在支持LLM模型进行无限输入长度的推理

相关推荐

#go语言 项目带星大列表

：LLM检索增强生成(RAG)相关资源大列表，包括论文、资源和工具等

: 专为在普通个人电脑和移动设备上高效推理大型语言模型（LLM）而设计的开源项目。

：通过GPU本地内存泄漏监听LLM响应

Open Interpreter允许LLM在本地运行代码

：基于TensorRT实现的Streaming-LLM技术，旨在支持LLM模型进行无限输入长度的推理

#go语言项目带星大列表