:旨在通过Intel Neural Compressor和llama.cpp支持的低bit量化和稀疏性的创新库,为Intel平台

:旨在通过Intel Neural Compressor和llama.cpp支持的低bit量化和稀疏性的创新库,为Intel平台上的大型语言模型(LLMs)提供高效的推断能力,提供了以下实验性特性:模块化设计以支持新模型,高度优化的低精度核心,利用AMX、VNNI、AVX512F和AVX2指令集,支持CPU(仅限x86平台)和Intel GPU(正在开发中),支持4-bit和8-bit量化。

相关推荐

封面图片

:允许用户在任何地方(Linux/Windows/Mac)通过 gradio web UI 在 GPU 或 CPU 上运行 Ll

:允许用户在任何地方(Linux/Windows/Mac)通过 gradio web UI 在 GPU 或 CPU 上运行 Llama 2。 它支持 Llama-2-7B/13B/70B,并且可以使用 8-bit 或 4-bit 模式。它支持至少有 6 GB VRAM 的 GPU 推理,以及至少有 6 GB RAM 的 CPU 推理。 支持多种模型:Llama-2-7b/13b/70b,所有的Llama-2-GPTQ,所有的Llama-2-GGML等 支持多种模型后端:Nvidia GPU(transformers,bitsandbytes(8-bit 推理),AutoGPTQ(4-bit 推理)),CPU,Mac/AMD GPU(llama.cpp) Web UI接口:gradio

封面图片

Intel® Extension for Transformers 是一种创新工具包,可在英特尔平台上加速基于 Transfor

Intel® Extension for Transformers 是一种创新工具包,可在英特尔平台上加速基于 Transformer 的模型,尤其适用于第 4 代英特尔至强可扩展处理器 Sapphire Rapids(代号为 Sapphire Rapids)。 该工具包提供以下主要功能和示例: 通过扩展Hugging Face transformersAPI 和利用英特尔® Neural Compressor,在基于 Transformer 的模型上进行模型压缩的无缝用户体验 高级软件优化和独特的压缩感知运行时(与 NeurIPS 2022 的论文Fast Distilbert on CPUs and QuaLA-MiniLM: a Quantized Length Adaptive MiniLM和 NeurIPS 2021 的论文Prune Once for All: Sparse Pre-Trained Language Models 一起发布) 优化的基于 Transformer 的模型包,例如Stable Diffusion、GPT-J-6B、GPT-NEOX、BLOOM-176B、T5、Flan-T5和端到端工作流程,例如基于 SetFit 的文本分类和文档级情感分析( DLSA) NeuralChat ,一个定制的聊天机器人,通过对领域知识的参数高效微调PEFT在 Intel CPU 上训练 | #工具

封面图片

中文LLaMA-2 & Alpaca-2大语言模型 ()

中文LLaMA-2 & Alpaca-2大语言模型 () 本项目基于Meta发布的可商用大模型Llama-2开发,是中文LLaMA&Alpaca大模型的第二期项目,开源了中文LLaMA-2基座模型和Alpaca-2指令精调大模型。 这些模型在原版Llama-2的基础上扩充并优化了中文词表,使用了大规模中文数据进行增量预训练,进一步提升了中文基础语义和指令理解能力,相比一代相关模型获得了显著性能提升。相关模型支持4K上下文并可通过NTK方法最高扩展至18K+。 本项目主要内容: 针对Llama-2模型增加了新版中文词表,开源了中文LLaMA-2和Alpaca-2大模型 了预训练脚本、开源指令精调脚本,用户可根据需要进一步训练模型 使用个人电脑的CPU/GPU在本地快速进行大模型仿真和部署体验 支持Transformers , llama.cpp , text- Generation-webui , LangChain , vLLM等LLaMA生态 目前已开源的模型:Chinese-LLaMA-2-7B, Chinese-Alpaca-2-7B

封面图片

Meta 发布的关于 Llama 入门指南也是个好东西啊,里面包括了想要使用和训练Llama的所有内容,包括模型的微调、量化、提

Meta 发布的关于 Llama 入门指南也是个好东西啊,里面包括了想要使用和训练Llama的所有内容,包括模型的微调、量化、提示工程、推理和测试一整个链路。 并且在一些深入内容上也介绍了应该看的其他详细教程,如果有一些基础想要微调Llama的可以看一下这个教程。 链接:

封面图片

:高效且高度可配置的大型语言模型(LLM)推理引擎。可以通过简单修改配置文件中的几行内容,而无需编写源代码,来为大多数常见的Tr

:高效且高度可配置的大型语言模型(LLM)推理引擎。可以通过简单修改配置文件中的几行内容,而无需编写源代码,来为大多数常见的Transformer模型提供服务。 主要特点 可扩展且高度可配置:使用 Inferflow 服务新模型的典型方法是编辑模型规范文件,但不添加/编辑源代码。我们在 Inferflow 中实现了原子构建块和技术的模块化框架,使其在组合上可推广到新模型。如果该模型中的原子构建块和技术(对于 Inferflow)“已知”,则 Inferflow 可以为该新模型提供服务。 3.5位量化:Inferflow实现2位、3位、3.5位、4位、5位、6位和8位量化。在量化方案中,3.5位量化是Inferflow推出的新方案。 多GPU推理的混合模型分区:Inferflow支持多GPU推理,具有三种模型分区策略可供选择:按层分区(管道并行)、按张量分区(张量并行)和混合分区(混合并行) )。其他推理引擎很少支持混合分区。 宽文件格式支持(并安全加载pickle数据):Inferflow支持直接加载多种文件格式的模型,而不依赖于外部转换器。支持的格式包括pickle、safetensors、llama.cpp gguf等。众所周知,使用Python代码读取pickle文件存在安全问题。通过在 C++ 中实现简化的 pickle 解析器,Inferflow 支持从 pickle 数据安全地加载模型。 广泛的网络类型支持:支持三种类型的变压器模型:仅解码器模型、仅编码器模型和编码器-解码器模型。 GPU/CPU混合推理:支持仅GPU、仅CPU、GPU/CPU混合推理。

封面图片

Mozilla 的 Llamafile 0.8.2 通过新的 AVX2 性能优化获得巨大成功

Mozilla 的 Llamafile 0.8.2 通过新的 AVX2 性能优化获得巨大成功 访问:Saily - 使用eSIM实现手机全球数据漫游 安全可靠 源自NordVPN Llamafile 的目标是让用户和开发人员更容易获得人工智能 LLM,它支持从单个文件精简部署大型语言模型,这些模型既能在 CPU 和 GPU 上执行,也能跨平台运行。Llamafile 已经支持利用 AVX/AVX2 实现更快的性能,并支持 AVX-512 以实现更快的速度。在今天发布的 Llamafile 0.8.2 中,又增加了 AVX2 优化功能。Llamafile 0.8.2 发布说明中提到"此版本为 K-quants 和 IQ4_XS 引入了更快的 AVX2 提示处理。这是由 @ikawrakow 贡献给 llamafile 的,他在去年发明了K-quants:gerganov/llama.cpp@99009e7。在之前的版本中,我们推荐使用传统的Q4_0 quant,因为它最简单、最直观,可以与最近的 matmul 优化一起使用。多亏了 Iwan Kawrakow 的努力,现在(在现代 x86 系统上)最好的quants(如 Q5_K_M)将以最快的速度运行"。在过去几年中,英特尔和 AMD 处理器广泛支持高级矢量扩展 2(Advanced Vector Extensions 2):大多数英特尔 CPU 从 Haswell 开始支持高级矢量扩展 2,而 AMD 方面则从 Excavator CPU 开始支持高级矢量扩展 2。拉取请求指出,在更快的 AVX2 提示处理方面取得了一些令人振奋的成果。据报告,各种计算器具的速度都提高了 1.4 至 2.3 倍。大量参与 Llamafile 开发工作的 Justine Tunney 最初回应了拉取请求:"这是一个了不起的变化 @ikawrakow。我很高兴看到最好的量化格式现在能以最快的速度运行。在 x86-64 机器上,我一直看到提示处理的速度提高了 1.2-2.0 倍。你们甚至成功地使令牌生成速度更快(我发现这要困难得多),在某些情况下甚至提高了 1.33 倍!"对于 Llamafile 0.8.2 而言,这些针对提示处理的 AVX2 优化已经足够令人兴奋了。不过,0.8.2 版还带来了内存错误修复、文本生成的轻微性能优化、本周的 Llama.cpp 代码更新以及各种新标志。有关 Llamafile 0.8.2 版的下载和更多详情,请访问GitHub。针对新版本的新Llamafile 基准测试即将发布。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人