LLaMA 在 CPU 上的运行速度显著改进

LLaMA 在 CPU 上的运行速度显著改进大模型如 LLaMA 通常需要高端 GPU 才能流畅运行。Mozilla 支持的项目旨在本地运行大模型。开发者刚刚为 llamafile 编写了 84 个新的矩阵乘法内核，显著改进了 CPU 运行性能，让普通 CPU 流畅运行大模型成为可能。ARMv8.2+（如 Raspberry Pi 5）、英特尔 CPU 以及支持 AVX512 指令集的 AMD Zen 4 CPU 上的运行速度增幅最为突出。来源，频道：@kejiqu 群组：@kejiquchat

在Telegram中查看

相关推荐

：在本地启动并运行大语言模型 | #工具

：在本地启动并运行大语言模型 | #工具 Ollama 是一款命令行工具，可在 macOS 和 Linux 上本地运行 Llama 2、Code Llama 和其他模型。适用于 macOS 和 Linux，并计划支持 Windows。 Ollama 目前支持近二十多个语言模型系列，每个模型系列都有许多可用的 "tags"。 Tags 是模型的变体，这些模型使用不同的微调方法以不同的规模进行训练，并以不同的级别进行量化，以便在本地良好运行。量化级别越高，模型越精确，但运行速度越慢，所需的内存也越大。

：允许用户在任何地方（Linux/Windows/Mac）通过 gradio web UI 在 GPU 或 CPU 上运行 Ll

：允许用户在任何地方（Linux/Windows/Mac）通过 gradio web UI 在 GPU 或 CPU 上运行 Llama 2。它支持 Llama-2-7B/13B/70B，并且可以使用 8-bit 或 4-bit 模式。它支持至少有 6 GB VRAM 的 GPU 推理，以及至少有 6 GB RAM 的 CPU 推理。支持多种模型：Llama-2-7b/13b/70b，所有的Llama-2-GPTQ，所有的Llama-2-GGML等支持多种模型后端：Nvidia GPU（transformers，bitsandbytes（8-bit 推理），AutoGPTQ（4-bit 推理）），CPU，Mac/AMD GPU（llama.cpp） Web UI接口：gradio

高通与Meta达成合作，支持大模型Llama 3在骁龙终端上运行

高通与Meta达成合作，支持大模型Llama 3在骁龙终端上运行据界面，4月19日，高通和Meta宣布合作，以优化Meta Llama 3大语言模型（LLM）直接在智能手机、PC、VR/AR头显和汽车等终端上的执行。开发者将能够访问高通AI Hub中的资源和工具，以实现在骁龙平台上优化运行Llama 3，从而缩短产品上市时间。来源：格隆汇

，一个可以让多人协作运行 Llama 和 BLOOM 等大型语言模型的项目

，一个可以让多人协作运行 Llama 和 BLOOM 等大型语言模型的项目使用Llama 2 (70B)，Falcon (180B)，BLOOM (176B)（或其衍生版本）生成文本，并针对任务进行微调，可使用消费级GPU或Google Colab。你可以加载模型的一小部分，然后加入一个网络，由其他人提供其余部分。Llama 2 （70B）的单批量推理速度可达6个标记/秒，Falcon（180B）的单批量推理速度可达4个标记/秒，足以用于聊天机器人和交互应用程序。

：旨在通过Intel Neural Compressor和llama.cpp支持的低bit量化和稀疏性的创新库，为Intel平台

：旨在通过Intel Neural Compressor和llama.cpp支持的低bit量化和稀疏性的创新库，为Intel平台上的大型语言模型(LLMs)提供高效的推断能力，提供了以下实验性特性：模块化设计以支持新模型，高度优化的低精度核心，利用AMX、VNNI、AVX512F和AVX2指令集，支持CPU(仅限x86平台)和Intel GPU(正在开发中)，支持4-bit和8-bit量化。

中文LLaMA-2 & Alpaca-2大语言模型 ()

中文LLaMA-2 & Alpaca-2大语言模型 () 本项目基于Meta发布的可商用大模型Llama-2开发，是中文LLaMA&Alpaca大模型的第二期项目，开源了中文LLaMA-2基座模型和Alpaca-2指令精调大模型。这些模型在原版Llama-2的基础上扩充并优化了中文词表，使用了大规模中文数据进行增量预训练，进一步提升了中文基础语义和指令理解能力，相比一代相关模型获得了显著性能提升。相关模型支持4K上下文并可通过NTK方法最高扩展至18K+。本项目主要内容：针对Llama-2模型增加了新版中文词表，开源了中文LLaMA-2和Alpaca-2大模型了预训练脚本、开源指令精调脚本，用户可根据需要进一步训练模型使用个人电脑的CPU/GPU在本地快速进行大模型仿真和部署体验支持Transformers , llama.cpp , text- Generation-webui , LangChain , vLLM等LLaMA生态目前已开源的模型：Chinese-LLaMA-2-7B, Chinese-Alpaca-2-7B

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人