：允许用户在任何地方（Linux/Windows/Mac）通过 gradio web UI 在 GPU 或 CPU 上运行 Ll

：允许用户在任何地方（Linux/Windows/Mac）通过 gradio web UI 在 GPU 或 CPU 上运行 Llama 2。它支持 Llama-2-7B/13B/70B，并且可以使用 8-bit 或 4-bit 模式。它支持至少有 6 GB VRAM 的 GPU 推理，以及至少有 6 GB RAM 的 CPU 推理。支持多种模型：Llama-2-7b/13b/70b，所有的Llama-2-GPTQ，所有的Llama-2-GGML等支持多种模型后端：Nvidia GPU（transformers，bitsandbytes（8-bit 推理），AutoGPTQ（4-bit 推理）），CPU，Mac/AMD GPU（llama.cpp） Web UI接口：gradio

在Telegram中查看

相关推荐

，一个可以让多人协作运行 Llama 和 BLOOM 等大型语言模型的项目

，一个可以让多人协作运行 Llama 和 BLOOM 等大型语言模型的项目使用Llama 2 (70B)，Falcon (180B)，BLOOM (176B)（或其衍生版本）生成文本，并针对任务进行微调，可使用消费级GPU或Google Colab。你可以加载模型的一小部分，然后加入一个网络，由其他人提供其余部分。Llama 2 （70B）的单批量推理速度可达6个标记/秒，Falcon（180B）的单批量推理速度可达4个标记/秒，足以用于聊天机器人和交互应用程序。

Google：引领AI推理工作量的是CPU而非GPU

Google：引领AI推理工作量的是CPU而非GPU 人工智能的生命周期分为两个部分：训练和推理。在训练过程中，需要大量的计算能力和巨大的内存容量，以便将不断扩大的人工智能模型装入内存。最新的模型，如 GPT-4 和 Gemini，包含数十亿个参数，需要数千个 GPU 或其他加速器并行工作，才能高效地进行训练。另一方面，推理所需的计算强度较低，但仍能从加速中获益。在推理过程中，会对预先训练好的模型进行优化和部署，以便对新数据进行预测。虽然推理所需的计算量比训练少，但延迟和吞吐量对实时推理至关重要。Google发现，虽然 GPU 是训练阶段的理想选择，但模型通常在 CPU 上进行优化和推理。这意味着，有些客户出于各种原因选择 CPU 作为人工智能推理的媒介。这可能是成本和可用性的问题。与高端 GPU 或专门的人工智能加速器相比，CPU 往往更便宜，也更容易获得。对于许多应用而言，CPU 能以较低的成本提供足够的推理性能。CPU 还具有灵活性。由于大多数系统已经配备了 CPU，它们为较小的人工智能模型提供了便捷的部署途径。GPU 通常需要专门的库和驱动程序，而基于 CPU 的推理可以利用现有的基础设施。这使得将人工智能集成到现有产品和工作流程中变得更加简单。延迟和吞吐量的权衡也会发挥作用。GPU 擅长大规模并行推理吞吐量。但 CPU 通常可以为实时请求提供更低的延迟。对于需要亚秒级响应的在线推荐等应用，CPU 推理可能是首选。此外，CPU 对推理的优化进展迅速。在更快的时钟、更多的内核以及英特尔 AVX-512 和 AMX 等新指令的推动下，性能不断提高，仅靠 CPU 就能流畅运行人工智能工作负载，如果服务器配置了不止一个插槽，意味着有更多的人工智能引擎存在，服务器就能高效处理数十亿参数大小的人工智能模型，则性能尤其出色。英特尔指出，一般来说，参数不超过200 亿的模型在 CPU 上可以正常运行，而更大的模型则必须使用专门的加速器。像 GPT-4、Claude 和 Gemini 这样的人工智能模型都是庞大的模型，参数规模可达一万亿以上。然而，它们是多模式的，也就是说，它们处理文本和视频。现实世界中的企业工作负载可能是一个人工智能模型推断公司的本地文档，以回答客户支持问题。对于这种解决方案来说，运行 GPT-4 这样的模型就显得多余了。相比之下，像LLAMA 2或 Mistral 这样小得多的模型可以很好地实现类似目的，而不需要第三方 API 访问，只需在本地或云服务器上运行几个 CPU 即可。这就降低了总体拥有成本（TCO），简化了人工智能管道。 ... PC版：手机版：

：全新的文本转语音(TTS)解决方案，具有高度自定义和灵活性，支持Linux和Windows系统，需要2GB的GPU内存进行推理

：全新的文本转语音(TTS)解决方案，具有高度自定义和灵活性，支持Linux和Windows系统，需要2GB的GPU内存进行推理，使用Flash-Attn进行推理和训练，支持VQGAN和Text2Semantic模型

技术玩家实现在不支持的CPU上运行 Windows 10 22H2

技术玩家实现在不支持的CPU上运行 Windows 10 22H2 与此相反，有些系统由于缺少某些必要的位而被认为无法运行操作系统。没有 NX 位（禁止执行位）和 PAE（物理地址扩展）的旧处理器就是这种情况，它们无法运行任何比 Windows 7 更新的系统。微软早年引入了这两个基于内存的功能，利用数据执行防护（DEP）来增强 Windows 的内存安全性。但是，当时支持与不支持 CPU 的划分比现在还要棘手。如果你还记得，微软，更新了2018年版（版本1809）Windows 10的CPU要求，虽然在纸面上增加了对新的高通芯片的支持，但用户开始报告某些较旧的CPU，如英特尔的奔腾M系列（Dothan系列）无法运行版本1709以上的新产品，因为Windows 10版本1803或1809会显示错误信息"IRQL_NOT_LESS_OR_EQUAL"。X 用户和技术爱好者Bob Pony找到了在官方不支持的旧处理器上使用经过调整的 1709 版 WinPE（Windows 预安装环境）运行较新版本的方法：他还替用户制作了一个完整的安装盘： CPU 缺乏 NX-bit 和 PAE 的用户仍然不走运。如上所述，某些 CPU（如英特尔奔腾 M 765）可以通过这种绕过方法安装 Windows 10，但其他 CPU（如 M 755），尽管同属 Dothan 系列 CPU却无法安装。这是因为后者不支持 NX 位或英特尔的 eXecute Disable (XD) 位。您可以使用HWiNFO实用程序检查 CPU 是否支持 NX 位和 PAE，这是一款非常方便的硬件信息查阅工具。在 HWiNFO 的主窗口中，转到"中央处理器"部分可以看到标准特性标志下的"物理地址扩展"和扩展特性标志下的"不执行"。(如果是英特尔，则可能标为"禁用执行位"）。列表中还包含 POPCNT 和 SSE（Streaming SIMD Extensions，流 SIMD 扩展）4.2，因此也可以查看这些内容以确认您的处理器是否支持Windows 11 24H2，当然也还可以查找 SSE3 指令集，因为Edge 也会在不支持 SSE3 的 CPU 上停止工作。 ... PC版：手机版：

骁龙X Elite包含四个版本 CPU、GPU频率各不相同

骁龙X Elite包含四个版本 CPU、GPU频率各不相同次一级的编号“X1-E84-100”，单双核最高频率略微降至4.2GHz，其他不变。然后是“X1E-80-100”，大大缩水，CPU最高多核频率降至3.4GHz，最高单双核频率降至4.0GHz，GPU算力也大幅降至3.8TFlops。最低端的是“X1E-78-100”，取消了更高的单双核加速频率，所有核心一视同仁。可以说，这四个版本的命名、规格毫无规律，所以当你有意购买骁龙X Elite笔记本的时候，一定要问清楚规格，免得买到残血版。至于骁龙X Plus，它倒是只有一个版本“X1P-64-100”，基本就是在X1E-78-100的基础上，CPU核心从12个砍到10个，其他基本不变，比如缓存还是42MB，GPU算力还是3.8TFlops。其他方面，骁龙X Elite/Plus各个版本的规格保持一致：NPU双核心、最高算力45TOPS；内存支持LPDDR5X-8448，最大容量64GB，带宽135GB/s；存储支持PCIe 4.0 NVMe SSD、UFS 4.0、SD 3.0；视频输出内屏DP 1.4b，最高UHD120 HDR10；外屏DP 1.4，三屏最高UHD60 HDR10、双屏最高5K60；基带骁龙X65，最高下载10Gbps、下载3.5Gbps；Wi-Fi 7，蓝牙5.4，三个USB4、两个USB 3.2 Gen2…… ... PC版：手机版：

IEEE：GPU很好，但不是唯一

IEEE：GPU很好，但不是唯一文章还坦言道：诚然GPU可能占据了主导地位，但在AI领域中的很多情况下，CPU却是更合适的那一个。例如文章引援了Hugging Face首席布道官Julien Simon体验的真实案例拿一个英特尔® 至强® 系列CPU，就能轻松驾驭Q8-Chat这个大语言模型，而且响应速度很快。Simon对此开诚布公地表示：GPU虽然很好，但垄断从来不是一件好事，可能会加剧供应链问题并导致成本上升。英特尔CPU在许多推理场景中都能很好地运行。而这也正与当下大模型的发展趋势变化相契合，即逐渐从训练向推理倾斜，大模型不再仅仅较真于参数规模、跑分和测评，更注重在应用侧发力。一言蔽之，比的就是看谁能“快好省”地用起来。不过话虽如此，但在真实的AI场景中，CPU真的已经“支棱”起来了吗？京东云，选择CPU如果说当时在这个话题上，IEEE扮演了 “嘴替”，是在帮那些AI应用实践的先行者们发声，那么这种发声，确实又吸引或带动了更多实干者来验证这种可行性。他们如今已经可以给出一个确定答案，即在很多AI推理的场景中，CPU已经能很好地上岗了。例如中国公有云服务器市场的翘楚京东云，它pick的便是最新的第五代英特尔® 至强® 可扩展处理器。具体而言，是在其新一代京东云服务器上搭载了这款高端CPU。话不多说，我们直接先来看下效果。首先，从整体来看，新一代京东云服务器的整机性能最高提升了23%！除此之外，在AI推理方面的性能也是Up Up Up。计算机视觉推理：性能提升38%Llama 2推理：性能提升51%而之所以能有如此突破，核心就是第五代英特尔® 至强® 可扩展处理器内置的AMX（高级矩阵扩展）技术对AI的加速能力。英特尔® AMX是针对矩阵运算推出的加速技术，支持在单个操作中计算更大的矩阵，让生成式 AI 更快地运行。一言以蔽之，你可以把它当作内置在CPU中的Tensor Core。展开来说， AMX引入了一种包含两个组件的新矩阵处理框架，包括二维的寄存器文件，它由被称为“tile”的寄存器组成；另一个是一系列能够在这些tile上执行操作的加速器。在这些技术的加持之下，以向量检索为例，当处理n个批次的任务时，需要对n个输入向量x和n个数据库中的向量y进行相似度比较。这一过程中的相似度计算涉及到大量的矩阵乘法运算，而英特尔® AMX能够针对这类需求提供显著的加速效果。△英特尔®AMX架构在提升模型性能的过程中，英特尔® oneDNN作为AMX的软件搭档，可为操作者提供一种高效的优化实现方式。开发者仅需调用MatMul原语，并提供必要的参数，包括一些后处理步骤，oneDNN便会自动处理包括配置块寄存器、数据从内存的加载、执行矩阵乘法计算以及将结果回写到内存等一系列复杂操作，并在最后释放相关资源。这种简化的编程模式显著减轻了工程师的编程负担，同时提升了开发效率。通过上述软硬结合的优化措施，京东云新一代服务器就可以在大模型推理和传统深度学习模型推理等场景里提供能满足客户性能和服务质量 (QoS) 需求的解决方案，同时还可以强化各种CPU本就擅长的通用计算任务的处理效率。仅就大家关心的大模型推理而言，已经能用于问答、客服和文档总结等多种场景。△Llama2-13B推理性能测试数据而且除了性能上的优化之外，由于搭载了英特尔® AMX等模块，新一代京东云服务器也可以更快地响应中小规模参数模型，把成本也狠狠地打了下去。你以为这就结束了？英特尔CPU给新一代京东云服务器带来的好处，可不只涉及推理加速和成本，更可靠的安全防护也是其独到优势之一。基于新款处理器内置的英特尔® Trust Domain Extension（英特尔® TDX）技术，京东云在不改变现有应用程序的情况下，就能构建基于硬件设备的可信执行环境（Trusted Execution Environment，TEE）。英特尔® TDX通过引入信任域（Trust Domain，TD）虚拟环境，利用多密钥全内存加密技术，实现了不同TD、实例以及系统管理软件之间的相互隔离，让客户的应用和数据与外部环境隔离，防止未授权访问，且性能损耗较低。总的来说，英特尔CPU上的这项技术，是从硬件、虚拟化、内存到大模型应用等多个层面，为新一代京东云服务器的数据和应用保密提供了可靠支撑。重新发现CPU的价值AI进入2.0时代，所有应用都值得重写一遍已逐渐成为共识。如果站在算力基础设施的视角重新审视这场变革，还能发现这样一个新趋势：推理算力越来越被重视起来。也就是随着大模型应用场景的日益丰富，对推理阶段的性能要求也变得更高和多样化。一方面，实时性强、时延敏感的终端侧场景需要尽可能短的响应时间；另一方面，并发量大、吞吐量高的云端服务则需要强大的批处理能力。与此同时，面向不同硬件平台、网络条件的推理适配也提出了更复杂甚至带有不同前置条件的要求。如此一来，此前在硬件上的单一“审美观”就被改写，本来就主攻通用计算、能在整个AI的协同编排中扮演重要角色，又能撸袖子自己上、兼顾AI加速，同时还有更多“才艺”、应用适配也更为灵活，相比GPU或专用加速芯片获取更容易，且已部署到无处不在的CPU，其价值也被重新发现，这一切都顺理成章。相信随着软硬件适配的不断深入，以及云边端协同的加速落地，CPU还有望在AI，特别是AI推理实践中找到更多的用武之地，发挥更大的应用潜力。可以预见，高性能、高效率、高适应性的CPU，在大模型越来越卷的时代，依旧是个可靠的选择。这一点，会有更多人因为实践，从而见证。最后让我们打个小广告：为了科普CPU在AI推理新时代的玩法，量子位开设了《最“in”AI》专栏，将从技术科普、行业案例、实战优化等多个角度全面解读。我们希望通过这个专栏，让更多的人了解CPU在AI推理加速，甚至是整个AI平台或全流程加速上的实践成果，重点就是如何更好地利用CPU来提升大模型应用的性能和效率。 ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人