IEEE:GPU很好,但不是唯一

IEEE:GPU很好,但不是唯一 文章还坦言道:诚然GPU可能占据了主导地位,但在AI领域中的很多情况下,CPU却是更合适的那一个。例如文章引援了Hugging Face首席布道官Julien Simon体验的真实案例拿一个英特尔® 至强® 系列CPU,就能轻松驾驭Q8-Chat这个大语言模型,而且响应速度很快。Simon对此开诚布公地表示:GPU虽然很好,但垄断从来不是一件好事,可能会加剧供应链问题并导致成本上升。英特尔CPU在许多推理场景中都能很好地运行。而这也正与当下大模型的发展趋势变化相契合,即逐渐从训练向推理倾斜,大模型不再仅仅较真于参数规模、跑分和测评,更注重在应用侧发力。一言蔽之,比的就是看谁能“快好省”地用起来。不过话虽如此,但在真实的AI场景中,CPU真的已经“支棱”起来了吗?京东云,选择CPU如果说当时在这个话题上,IEEE扮演了 “嘴替”,是在帮那些AI应用实践的先行者们发声,那么这种发声,确实又吸引或带动了更多实干者来验证这种可行性。他们如今已经可以给出一个确定答案,即在很多AI推理的场景中,CPU已经能很好地上岗了。例如中国公有云服务器市场的翘楚京东云,它pick的便是最新的第五代英特尔® 至强® 可扩展处理器。具体而言,是在其新一代京东云服务器上搭载了这款高端CPU。话不多说,我们直接先来看下效果。首先,从整体来看,新一代京东云服务器的整机性能最高提升了23%!除此之外,在AI推理方面的性能也是Up Up Up。计算机视觉推理:性能提升38%Llama 2推理:性能提升51%而之所以能有如此突破,核心就是第五代英特尔® 至强® 可扩展处理器内置的AMX(高级矩阵扩展)技术对AI的加速能力。英特尔® AMX是针对矩阵运算推出的加速技术,支持在单个操作中计算更大的矩阵,让生成式 AI 更快地运行。一言以蔽之,你可以把它当作内置在CPU中的Tensor Core。展开来说, AMX引入了一种包含两个组件的新矩阵处理框架,包括二维的寄存器文件,它由被称为“tile”的寄存器组成;另一个是一系列能够在这些tile上执行操作的加速器。在这些技术的加持之下,以向量检索为例,当处理n个批次的任务时,需要对n个输入向量x和n个数据库中的向量y进行相似度比较。这一过程中的相似度计算涉及到大量的矩阵乘法运算,而英特尔® AMX能够针对这类需求提供显著的加速效果。△英特尔®AMX架构在提升模型性能的过程中,英特尔® oneDNN作为AMX的软件搭档,可为操作者提供一种高效的优化实现方式。开发者仅需调用MatMul原语,并提供必要的参数,包括一些后处理步骤,oneDNN便会自动处理包括配置块寄存器、数据从内存的加载、执行矩阵乘法计算以及将结果回写到内存等一系列复杂操作,并在最后释放相关资源。这种简化的编程模式显著减轻了工程师的编程负担,同时提升了开发效率。通过上述软硬结合的优化措施,京东云新一代服务器就可以在大模型推理和传统深度学习模型推理等场景里提供能满足客户性能和服务质量 (QoS) 需求的解决方案,同时还可以强化各种CPU本就擅长的通用计算任务的处理效率。仅就大家关心的大模型推理而言,已经能用于问答、客服和文档总结等多种场景。△Llama2-13B推理性能测试数据而且除了性能上的优化之外,由于搭载了英特尔® AMX等模块,新一代京东云服务器也可以更快地响应中小规模参数模型,把成本也狠狠地打了下去。你以为这就结束了?英特尔CPU给新一代京东云服务器带来的好处,可不只涉及推理加速和成本,更可靠的安全防护也是其独到优势之一。基于新款处理器内置的英特尔® Trust Domain Extension(英特尔® TDX)技术,京东云在不改变现有应用程序的情况下,就能构建基于硬件设备的可信执行环境(Trusted Execution Environment,TEE)。英特尔® TDX通过引入信任域(Trust Domain,TD)虚拟环境,利用多密钥全内存加密技术,实现了不同TD、实例以及系统管理软件之间的相互隔离,让客户的应用和数据与外部环境隔离,防止未授权访问,且性能损耗较低。总的来说,英特尔CPU上的这项技术,是从硬件、虚拟化、内存到大模型应用等多个层面,为新一代京东云服务器的数据和应用保密提供了可靠支撑。重新发现CPU的价值AI进入2.0时代,所有应用都值得重写一遍已逐渐成为共识。如果站在算力基础设施的视角重新审视这场变革,还能发现这样一个新趋势:推理算力越来越被重视起来。也就是随着大模型应用场景的日益丰富,对推理阶段的性能要求也变得更高和多样化。一方面,实时性强、时延敏感的终端侧场景需要尽可能短的响应时间;另一方面,并发量大、吞吐量高的云端服务则需要强大的批处理能力。与此同时,面向不同硬件平台、网络条件的推理适配也提出了更复杂甚至带有不同前置条件的要求。如此一来,此前在硬件上的单一“审美观”就被改写,本来就主攻通用计算、能在整个AI的协同编排中扮演重要角色,又能撸袖子自己上、兼顾AI加速,同时还有更多“才艺”、应用适配也更为灵活,相比GPU或专用加速芯片获取更容易,且已部署到无处不在的CPU,其价值也被重新发现,这一切都顺理成章。相信随着软硬件适配的不断深入,以及云边端协同的加速落地,CPU还有望在AI,特别是AI推理实践中找到更多的用武之地,发挥更大的应用潜力。可以预见,高性能、高效率、高适应性的CPU,在大模型越来越卷的时代,依旧是个可靠的选择。这一点,会有更多人因为实践,从而见证。最后让我们打个小广告:为了科普CPU在AI推理新时代的玩法,量子位开设了《最“in”AI》专栏,将从技术科普、行业案例、实战优化等多个角度全面解读。我们希望通过这个专栏,让更多的人了解CPU在AI推理加速,甚至是整个AI平台或全流程加速上的实践成果,重点就是如何更好地利用CPU来提升大模型应用的性能和效率。 ... PC版: 手机版:

相关推荐

封面图片

Google:引领AI推理工作量的是CPU而非GPU

Google:引领AI推理工作量的是CPU而非GPU 人工智能的生命周期分为两个部分:训练和推理。在训练过程中,需要大量的计算能力和巨大的内存容量,以便将不断扩大的人工智能模型装入内存。最新的模型,如 GPT-4 和 Gemini,包含数十亿个参数,需要数千个 GPU 或其他加速器并行工作,才能高效地进行训练。另一方面,推理所需的计算强度较低,但仍能从加速中获益。在推理过程中,会对预先训练好的模型进行优化和部署,以便对新数据进行预测。虽然推理所需的计算量比训练少,但延迟和吞吐量对实时推理至关重要。Google发现,虽然 GPU 是训练阶段的理想选择,但模型通常在 CPU 上进行优化和推理。这意味着,有些客户出于各种原因选择 CPU 作为人工智能推理的媒介。这可能是成本和可用性的问题。与高端 GPU 或专门的人工智能加速器相比,CPU 往往更便宜,也更容易获得。对于许多应用而言,CPU 能以较低的成本提供足够的推理性能。CPU 还具有灵活性。由于大多数系统已经配备了 CPU,它们为较小的人工智能模型提供了便捷的部署途径。GPU 通常需要专门的库和驱动程序,而基于 CPU 的推理可以利用现有的基础设施。这使得将人工智能集成到现有产品和工作流程中变得更加简单。延迟和吞吐量的权衡也会发挥作用。GPU 擅长大规模并行推理吞吐量。但 CPU 通常可以为实时请求提供更低的延迟。对于需要亚秒级响应的在线推荐等应用,CPU 推理可能是首选。此外,CPU 对推理的优化进展迅速。在更快的时钟、更多的内核以及英特尔 AVX-512 和 AMX 等新指令的推动下,性能不断提高,仅靠 CPU 就能流畅运行人工智能工作负载,如果服务器配置了不止一个插槽,意味着有更多的人工智能引擎存在,服务器就能高效处理数十亿参数大小的人工智能模型,则性能尤其出色。英特尔指出,一般来说,参数不超过200 亿的模型在 CPU 上可以正常运行,而更大的模型则必须使用专门的加速器。像 GPT-4、Claude 和 Gemini 这样的人工智能模型都是庞大的模型,参数规模可达一万亿以上。然而,它们是多模式的,也就是说,它们处理文本和视频。现实世界中的企业工作负载可能是一个人工智能模型推断公司的本地文档,以回答客户支持问题。对于这种解决方案来说,运行 GPT-4 这样的模型就显得多余了。相比之下,像LLAMA 2或 Mistral 这样小得多的模型可以很好地实现类似目的,而不需要第三方 API 访问,只需在本地或云服务器上运行几个 CPU 即可。这就降低了总体拥有成本(TCO),简化了人工智能管道。 ... PC版: 手机版:

封面图片

英特尔在整个CPU和GPU产品组合中为微软Phi-3 AI模型做好了准备

英特尔在整个CPU和GPU产品组合中为微软Phi-3 AI模型做好了准备 在讨论细节之前,我们先来看看微软的 Phi-3 开放模型系列。该公司的新 GenAI 模型侧重于在更小、更高效的层面上提供功能,偏离了行业规范。有了Phi-3,我们可以看到小语言模型(SLM)的出现,它是处理能力有限的低功耗设备的理想选择。英特尔已成为首批在其产品阵容中支持 SLM 的硬件制造商之一,现在英特尔的 Gaudi AI 加速器、至强和酷睿 Ultra CPU 以及英特尔的 Arc GPU(独立和集成)都已优化,以支持微软的 Phi-3 型号。英特尔公司副总裁兼数据中心与人工智能软件部总经理 Pallavi Mahajan 介绍说:"我们利用业内最新的人工智能模型和软件,为客户和开发人员提供强大的人工智能解决方案。与人工智能软件生态系统中的其他领导者(如微软)积极合作,是让人工智能无处不在的关键。我们很荣幸能与微软密切合作,确保英特尔硬件(涵盖数据中心、边缘和客户端)积极支持几种新的Phi-3模型。"微软发布了多个 Phi-3 GenAI 模型,并根据各自的参数进行了分类。这些型号包括迷你型、小型和中型;有趣的是,英特尔展示了其所有开放型号产品的性能。从英特尔第六代至强 CPU(Granite Rapids)开始,该公司对 Phi-3 中型 4k 和 128k 变体进行了基准测试,与第五代至强(Emerald Rapids)相比,该平台的性能提高了 2 倍。谈到英特尔的酷睿Ultra CPU平台,该公司表示,Phi-3型号将催化边缘人工智能进程,并将提供"个性化和响应速度"等多项优势。为此,该公司用英特尔酷睿 Ultra 7 165H 对 Phi-3 mini 机型进行了测试,板载的独立 GPU 为 Arc A770,基准测试确实显示出令人印象深刻的性能和词元生成延迟。微软Phi-3人工智能模型的首次亮相确实将为个性化人工智能计算时代打开新的大门,而凭借现代处理器所拥有的性能,运行这样的模型完全不是问题。 ... PC版: 手机版:

封面图片

基于TensorFlow PluggableDevice接口的异构、高性能深度学习扩展插件,将英特尔XPU (GPU、 CPU

基于TensorFlow PluggableDevice接口的异构、高性能深度学习扩展插件,将英特尔XPU (GPU、 CPU 等)设备带入TensorFlow 开源社区,用于AI工作负载加速 | #插件

封面图片

英特尔Battlemage Xe2 GPU据报被搁置 Celestial Xe3可能也会推迟发布

英特尔Battlemage Xe2 GPU据报被搁置 Celestial Xe3可能也会推迟发布 英特尔Arc Battlemage"Xe2"图形处理器将成为下一代Lunar Lake"酷睿Ultra 200V"CPU的重要组成部分,预计将于今年晚些时候亮相,并计划于2024年上半年开始推广。我们已经看到了这些芯片的泄露信息,其性能比 Alchemist 和 Alchemist+ 芯片快得多,这表明使用了升级的图形架构。这仍然是该架构的 Xe2-LPG 或移动版本,而被称为 Xe2-HPG 的高端独立 GPU 变体据说将推迟推出。第二个被提及的芯片是 DG3 或 Xe3,这是英特尔 Arc Celestial 图形架构的代号。该架构预计将作为 Xe3-LPG iGPU 在英特尔的 Panther Lake CPU 系列中首次亮相,但看起来这篇帖子暗示明年不会有 Xe3。英特尔已经证实,Panther Lake 将于 2025 年下半年推出,并将使用英特尔的 18A、英特尔 3 和外部(台积电)工艺节点。现在还不清楚这一传言是暗示独立图形处理器系列、集成图形处理器系列,还是两者都会推迟。独立图形处理器的开发很可能会后退一步,因为该公司正把更多的精力放在集成图形处理器上。已经有报道称,英特尔的Arc Battlemage"Xe2" Arc显卡预计将于2024年底亮相,而且该GPU已经出现在多个补丁中,表明目前工作正在进行中。因此,如果英特尔突然决定推迟甚至取消这些芯片,将令许多用户和技术社区大失所望,英特尔此前通过持续的驱动程序更新(包括优化、修复和对许多新游戏的第 0/1 天支持)在微调其 Arc 产品性能方面做得非常好。 ... PC版: 手机版:

封面图片

英特尔:32G将成AI PC入门级标配 16G一定被淘汰

英特尔:32G将成AI PC入门级标配 16G一定被淘汰 明年64G PC将开始出货,AI PC对SSD性能和容量提出非常高的要求。预计随着AI PC性能不断提升,其内存及闪存容量将持续增长,AI PC将成为存储行业未来几年增长的重要驱动力。据了解,英特尔是AI PC概念的倡导者,2023年10月,英特尔宣布启动业内首个AI PC加速计划,同年12月,全新酷睿Ultra处理器发布。这是英特尔首款AI PC处理器,全系内置AI计算核心,用户无需联网也能进行端侧AI大模型部署。据市场机构Canalys最新报告,2024年全球AI PC出货量预计为4800万台,占PC出货总量的18%。预计到2025年,全球AI PC出货量将超1亿台,占PC出货总量的40%;到2028年,将达到2.05亿台。 ... PC版: 手机版:

封面图片

英特尔传成功抢单Nvidia!韩媒:南韩Naver的AI伺服器改用英特尔CPU

英特尔传成功抢单Nvidia!韩媒:南韩Naver的AI伺服器改用英特尔CPU 南韩媒体报导,南韩入口网站巨擘Naver旗下Naver Place地图服务的人工智慧(AI)伺服器供应商,已从辉达(Nvidia)改为英特尔(Intel)。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人