LLaMA 在 CPU 上的运行速度显著改进

LLaMA 在 CPU 上的运行速度显著改进 大模型如 LLaMA 通常需要高端 GPU 才能流畅运行。Mozilla 支持的项目旨在本地运行大模型。开发者刚刚为 llamafile 编写了 84 个新的矩阵乘法内核,显著改进了 CPU 运行性能,让普通 CPU 流畅运行大模型成为可能。ARMv8.2+(如 Raspberry Pi 5) 、英特尔 CPU 以及支持 AVX512 指令集的 AMD Zen 4 CPU 上的运行速度增幅最为突出。来源 , 频道:@kejiqu 群组:@kejiquchat

相关推荐

封面图片

:在本地启动并运行大语言模型 | #工具

:在本地启动并运行大语言模型 | #工具 Ollama 是一款命令行工具,可在 macOS 和 Linux 上本地运行 Llama 2、Code Llama 和其他模型。适用于 macOS 和 Linux,并计划支持 Windows。 Ollama 目前支持近二十多个语言模型系列,每个模型系列都有许多可用的 "tags"。 Tags 是模型的变体,这些模型使用不同的微调方法以不同的规模进行训练,并以不同的级别进行量化,以便在本地良好运行。量化级别越高,模型越精确,但运行速度越慢,所需的内存也越大。

封面图片

:允许用户在任何地方(Linux/Windows/Mac)通过 gradio web UI 在 GPU 或 CPU 上运行 Ll

:允许用户在任何地方(Linux/Windows/Mac)通过 gradio web UI 在 GPU 或 CPU 上运行 Llama 2。 它支持 Llama-2-7B/13B/70B,并且可以使用 8-bit 或 4-bit 模式。它支持至少有 6 GB VRAM 的 GPU 推理,以及至少有 6 GB RAM 的 CPU 推理。 支持多种模型:Llama-2-7b/13b/70b,所有的Llama-2-GPTQ,所有的Llama-2-GGML等 支持多种模型后端:Nvidia GPU(transformers,bitsandbytes(8-bit 推理),AutoGPTQ(4-bit 推理)),CPU,Mac/AMD GPU(llama.cpp) Web UI接口:gradio

封面图片

高通与Meta达成合作,支持大模型Llama 3在骁龙终端上运行

高通与Meta达成合作,支持大模型Llama 3在骁龙终端上运行 据界面,4月19日,高通和Meta宣布合作,以优化Meta Llama 3大语言模型(LLM)直接在智能手机、PC、VR/AR头显和汽车等终端上的执行。开发者将能够访问高通AI Hub中的资源和工具,以实现在骁龙平台上优化运行Llama 3,从而缩短产品上市时间。 来源:格隆汇

封面图片

,一个可以让多人协作运行 Llama 和 BLOOM 等大型语言模型的项目

,一个可以让多人协作运行 Llama 和 BLOOM 等大型语言模型的项目 使用Llama 2 (70B),Falcon (180B),BLOOM (176B)(或其衍生版本)生成文本,并针对任务进行微调,可使用消费级GPU或Google Colab。 你可以加载模型的一小部分,然后加入一个网络,由其他人提供其余部分。Llama 2 (70B)的单批量推理速度可达6个标记/秒,Falcon(180B)的单批量推理速度可达4个标记/秒,足以用于聊天机器人和交互应用程序。

封面图片

中文LLaMA-2 & Alpaca-2大语言模型 ()

中文LLaMA-2 & Alpaca-2大语言模型 () 本项目基于Meta发布的可商用大模型Llama-2开发,是中文LLaMA&Alpaca大模型的第二期项目,开源了中文LLaMA-2基座模型和Alpaca-2指令精调大模型。 这些模型在原版Llama-2的基础上扩充并优化了中文词表,使用了大规模中文数据进行增量预训练,进一步提升了中文基础语义和指令理解能力,相比一代相关模型获得了显著性能提升。相关模型支持4K上下文并可通过NTK方法最高扩展至18K+。 本项目主要内容: 针对Llama-2模型增加了新版中文词表,开源了中文LLaMA-2和Alpaca-2大模型 了预训练脚本、开源指令精调脚本,用户可根据需要进一步训练模型 使用个人电脑的CPU/GPU在本地快速进行大模型仿真和部署体验 支持Transformers , llama.cpp , text- Generation-webui , LangChain , vLLM等LLaMA生态 目前已开源的模型:Chinese-LLaMA-2-7B, Chinese-Alpaca-2-7B

封面图片

现在可以在笔记本电脑、手机和 Raspberry Pi 上运行 GPT-3 级别的 AI 模型

现在可以在笔记本电脑、手机和 Raspberry Pi 上运行 GPT-3 级别的 AI 模型 通常,运行 GPT-3 需要多个数据中心级A100 GPU(此外,GPT-3 的权重不公开),但 LLaMA 引起了轰动,因为它可以在单个强大的消费类 GPU 上运行。现在,通过使用一种称为量化的技术来减小模型大小的优化,LLaMA 可以在 M1 Mac 或较小的 Nvidia 消费者 GPU 上运行。 周五,一位名叫 Georgi Gerganov 的软件开发人员创建了一个名为“”的工具,可以在 Mac 笔记本电脑本地运行 Meta 的新 GPT-3 类 AI 大型语言模型LLaMA 。此后不久,人们也想出了如何在 。然后有人展示了它在 Pixel 6 手机上运行,接下来是(尽管运行速度非常慢)。 如果这种情况持续下去,我们可能会在不知不觉中看到一个口袋大小的ChatGPT 竞争对手。 在撰写本文时,在 Mac 上运行 LLaMA 仍然是一项相当技术性的练习。您必须安装 Python 和 Xcode 并熟悉在命令行上工作。威利森为任何想尝试的人提供了很好的。但随着开发人员继续编写代码,这种情况可能很快就会改变。 来自:雷锋 频道:@kejiqu 群组:@kejiquchat 投稿:@kejiqubot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人