Google:引领AI推理工作量的是CPU而非GPU

Google:引领AI推理工作量的是CPU而非GPU 人工智能的生命周期分为两个部分:训练和推理。在训练过程中,需要大量的计算能力和巨大的内存容量,以便将不断扩大的人工智能模型装入内存。最新的模型,如 GPT-4 和 Gemini,包含数十亿个参数,需要数千个 GPU 或其他加速器并行工作,才能高效地进行训练。另一方面,推理所需的计算强度较低,但仍能从加速中获益。在推理过程中,会对预先训练好的模型进行优化和部署,以便对新数据进行预测。虽然推理所需的计算量比训练少,但延迟和吞吐量对实时推理至关重要。Google发现,虽然 GPU 是训练阶段的理想选择,但模型通常在 CPU 上进行优化和推理。这意味着,有些客户出于各种原因选择 CPU 作为人工智能推理的媒介。这可能是成本和可用性的问题。与高端 GPU 或专门的人工智能加速器相比,CPU 往往更便宜,也更容易获得。对于许多应用而言,CPU 能以较低的成本提供足够的推理性能。CPU 还具有灵活性。由于大多数系统已经配备了 CPU,它们为较小的人工智能模型提供了便捷的部署途径。GPU 通常需要专门的库和驱动程序,而基于 CPU 的推理可以利用现有的基础设施。这使得将人工智能集成到现有产品和工作流程中变得更加简单。延迟和吞吐量的权衡也会发挥作用。GPU 擅长大规模并行推理吞吐量。但 CPU 通常可以为实时请求提供更低的延迟。对于需要亚秒级响应的在线推荐等应用,CPU 推理可能是首选。此外,CPU 对推理的优化进展迅速。在更快的时钟、更多的内核以及英特尔 AVX-512 和 AMX 等新指令的推动下,性能不断提高,仅靠 CPU 就能流畅运行人工智能工作负载,如果服务器配置了不止一个插槽,意味着有更多的人工智能引擎存在,服务器就能高效处理数十亿参数大小的人工智能模型,则性能尤其出色。英特尔指出,一般来说,参数不超过200 亿的模型在 CPU 上可以正常运行,而更大的模型则必须使用专门的加速器。像 GPT-4、Claude 和 Gemini 这样的人工智能模型都是庞大的模型,参数规模可达一万亿以上。然而,它们是多模式的,也就是说,它们处理文本和视频。现实世界中的企业工作负载可能是一个人工智能模型推断公司的本地文档,以回答客户支持问题。对于这种解决方案来说,运行 GPT-4 这样的模型就显得多余了。相比之下,像LLAMA 2或 Mistral 这样小得多的模型可以很好地实现类似目的,而不需要第三方 API 访问,只需在本地或云服务器上运行几个 CPU 即可。这就降低了总体拥有成本(TCO),简化了人工智能管道。 ... PC版: 手机版:

相关推荐

封面图片

英特尔在整个CPU和GPU产品组合中为微软Phi-3 AI模型做好了准备

英特尔在整个CPU和GPU产品组合中为微软Phi-3 AI模型做好了准备 在讨论细节之前,我们先来看看微软的 Phi-3 开放模型系列。该公司的新 GenAI 模型侧重于在更小、更高效的层面上提供功能,偏离了行业规范。有了Phi-3,我们可以看到小语言模型(SLM)的出现,它是处理能力有限的低功耗设备的理想选择。英特尔已成为首批在其产品阵容中支持 SLM 的硬件制造商之一,现在英特尔的 Gaudi AI 加速器、至强和酷睿 Ultra CPU 以及英特尔的 Arc GPU(独立和集成)都已优化,以支持微软的 Phi-3 型号。英特尔公司副总裁兼数据中心与人工智能软件部总经理 Pallavi Mahajan 介绍说:"我们利用业内最新的人工智能模型和软件,为客户和开发人员提供强大的人工智能解决方案。与人工智能软件生态系统中的其他领导者(如微软)积极合作,是让人工智能无处不在的关键。我们很荣幸能与微软密切合作,确保英特尔硬件(涵盖数据中心、边缘和客户端)积极支持几种新的Phi-3模型。"微软发布了多个 Phi-3 GenAI 模型,并根据各自的参数进行了分类。这些型号包括迷你型、小型和中型;有趣的是,英特尔展示了其所有开放型号产品的性能。从英特尔第六代至强 CPU(Granite Rapids)开始,该公司对 Phi-3 中型 4k 和 128k 变体进行了基准测试,与第五代至强(Emerald Rapids)相比,该平台的性能提高了 2 倍。谈到英特尔的酷睿Ultra CPU平台,该公司表示,Phi-3型号将催化边缘人工智能进程,并将提供"个性化和响应速度"等多项优势。为此,该公司用英特尔酷睿 Ultra 7 165H 对 Phi-3 mini 机型进行了测试,板载的独立 GPU 为 Arc A770,基准测试确实显示出令人印象深刻的性能和词元生成延迟。微软Phi-3人工智能模型的首次亮相确实将为个性化人工智能计算时代打开新的大门,而凭借现代处理器所拥有的性能,运行这样的模型完全不是问题。 ... PC版: 手机版:

封面图片

NVIDIA开源HPCG AI基准 支持Grace CPU以及Ampere和Hopper GPU

NVIDIA开源HPCG AI基准 支持Grace CPU以及Ampere和Hopper GPU 自英伟达之前宣布为 GeForce RTX 20 系列及以后的产品使用开源 GPU 内核以来,英伟达一直在寻求向更开源的方向转变,以促进其平台的开发,并在 Linux 方面大步迈进。这一次,该公司决定通过开源英伟达 HPCG 来帮助人工智能行业,该 HPCG 面向 Grace Superchips 和 Hopper 系列架构等人工智能硬件。NVIDIA的HPCG是一个专为高性能计算应用设计的基准测试,主要通过多种数学运算来测试特定硬件在不同场景下的性能。这不仅能让NVIDIA展示其GPU的能力,而且该软件包在优化HPC系统方面发挥了重要作用。在人工智能和高性能计算应用大幅增长的时代,NVIDIAHPCG 的开源意味着该公司决心看到资源的发展。以下是该公司自己详细介绍的主要功能:GitHub: HPCG 基准利用 NVIDIA 高性能数学库:cuSPARSE 和 NVPL Sparse,在 NVIDIA GPU 和 Grace CPU 上实现稀疏矩阵向量乘法 (SpMV) 和稀疏矩阵三角求解器 (SpSV) 的最高性能。NVIDIA HPCG 基准支持高度可配置的命令行参数,以决定:GPU 和 Grace CPU 的问题大小三维等级网格形状执行模式: 纯 CPU、纯 GPU 和异构点对点通信: MPI_Host(发送/回传)、MPI_Host_Alltoallv、MPI_CUDA_Aware、MPI_CUDA_Aware_Alltoallv 和 NCCLNUMA 相关配置在兼容性方面,NVIDIA HPCG 支持 Grace CPU 系统以及 Ampere 和 Hopper GPU 架构。该软件也只能在 Linux 下运行,这限制了它的使用范围。不过,这仍然是一个有趣举动,它表明了NVIDIA公司对资产开源的承诺。 ... PC版: 手机版:

封面图片

AMD将搭建由120万颗GPU驱动的全球最强AI超级计算机

AMD将搭建由120万颗GPU驱动的全球最强AI超级计算机 AMD 数据中心解决方案总经理 Forrest Norrod 在接受The Next Platform 采访时透露,他们收到了客户关于使用 120 万个 GPU 构建人工智能训练集群的真实询问。从这个角度来看,目前的人工智能训练集群通常使用数千个 GPU,通过高速互连连接到多个本地服务器机架上。目前正在考虑的人工智能开发规模是前所未有的。诺罗德说:"正在筹建的一些训练集群确实强大得令人匪夷所思。事实上,目前已知用于训练人工智能模型的最大超级计算机是Frontier,它拥有37888个Radeon GPU,这使得AMD潜在的超级计算机比Frontier强大30倍。"当然,事情没那么简单。即使以目前的功率水平,在创建人工智能训练集群时也有大量隐患需要考虑。人工智能训练需要较低的延迟来提供及时的结果,需要消耗大量的电能,而且必须考虑到硬件故障,即使只有几千个 GPU 也不例外。大多数服务器的利用率在20%左右,并在远程机器上处理数千个小型异步作业。然而,人工智能培训的兴起正在导致服务器结构发生重大变化。为了跟上机器学习模型和算法的发展,人工智能数据中心必须配备专门为这项工作设计的大量计算能力。人工智能训练本质上是一项大型同步作业,需要集群中的每个节点尽可能快地来回传递信息。最有趣的是,这些数据来自 AMD,而 AMD 在 2023 年的数据中心 GPU 出货量中只占不到 2%。而占据另外 98% 市场份额的 NVIDIA 则对客户要求其开发的产品守口如瓶。作为市场领导者,我们只能想象他们正在开发什么。虽然拟议中的 120 万 GPU 超级计算机可能看起来有些离谱,但诺罗德称,"非常清醒的人"正在考虑在人工智能训练集群上花费多达千亿美元。这并不令人震惊,因为在过去几年里,人工智能在科技界的发展可谓突飞猛进。看来,企业已经准备好在人工智能和机器学习上投入巨资,以保持竞争力。 ... PC版: 手机版:

封面图片

消息称Meta计划开发新AI芯片,此前因迟迟未用GPU导致AI开发落后

消息称Meta计划开发新AI芯片,此前因迟迟未用GPU导致AI开发落后 消息人士透露,Meta 之前发展 AI 业务时,一直没有接受使用 GPU,相反,直到去年,Meta都在主要使用 CPU 队列运行人工智能工作负载,这也是Meta在AI进程上落后对手的关键原因之一。Meta曾计划在2022年推出定制芯片,但后来放弃;同年其订购了数十亿美元的英伟达GPU。目前,Meta内部已开始计划开发一款新型芯片,类似GPU,既能训练AI模型,又能进行推理,该项目将于2025年左右完成。

封面图片

Google发布Gemma 2轻量级开放模型 以极小的成本提供强大的性能

Google发布Gemma 2轻量级开放模型 以极小的成本提供强大的性能 Gemma 2 有两种规格:90 亿 (9B) 和 270 亿 (27B) 个参数。新一代模型的推理效率更高,性能也优于第一个 Gemma 模型。Google称,27B 模型的性能可与两倍于其规模的模型相媲美,而 9B 模型的性能则优于 Llama 3 8B 和其他类似规模的开源模型。未来几个月,Google计划发布参数为 2.6B 的 Gemma 2 型号,它将更适合智能手机的人工智能应用场景。新的 Gemma 2 模型可以托管在单个英伟达 A100 80GB Tensor Core GPU、英伟达 H100 Tensor Core GPU 或单个 TPU 主机上,从而降低人工智能基础架构成本。甚至可以通过Hugging Face Transformers在英伟达 RTX 或 GeForce RTX 桌面 GPU 上运行 Gemma 2。从下个月开始,Google云客户可以在Vertex AI上部署和管理 Gemma 2。开发人员现在可以在 Google AI Studio 上试用新的 Gemma 2 模型。在 Gemma 2 的训练过程中,Google对训练前的数据进行了过滤,并根据一套全面的安全指标进行了测试和评估,以识别和减少潜在的偏差和风险。Google通过 Kaggle 或 Colab 免费层免费提供 Gemma 2。学术研究人员可申请Gemma 2 学术研究计划,以获得 Google 云积分。Gemma 2 集高性能、高效率和可访问性于一身,改变了开源人工智能领域的游戏规则,致力于开放访问和负责任的人工智能开发,为人工智能的未来树立了一个积极的榜样。 ... PC版: 手机版:

封面图片

埃隆·马斯克透露计划制造世界上"最强大"的10万级NVIDIA GPU AI集群

埃隆·马斯克透露计划制造世界上"最强大"的10万级NVIDIA GPU AI集群 根据马斯克的说法,在与甲骨文公司分道扬镳以加快人工智能开发进度之后,xAI 已经决定只依靠自己来建立"世界上最强大的训练集群"。甲骨文向xAI提供了2.4万个英伟达Hopper GPU,用于训练Grok 2人工智能模型,马斯克透露,该模型将于8月发布。马斯克分享了xAI的10万GPU集群的最新细节,以回应一份媒体报道,该报道概述了这家人工智能公司与甲骨文公司就扩大现有协议的谈判已经结束。根据目前的协议,xAI 使用 2.4 万个英伟达的 H100 GPU 来训练 Grok 2 人工智能模型。据外媒报道,甲骨文公司也正在与微软合作,为其提供由 10 万个英伟达 Blackwell GB200 芯片组成的集群,这些芯片是市场上最新的人工智能处理器。马斯克分享说,xAI 正在内部构建其 10 万 GPU 人工智能系统,以实现"最快的完成时间"。他认为,这是"追赶"其他人工智能公司的必要条件,因为他认为,"比其他任何人工智能公司都快"对于xAI的"基本竞争力"非常重要。马斯克在上月初的声明中透露,xAI 计划利用英伟达公司的 Blackwell 芯片打造一个价值数十亿美元的系统。他概述说,该系统将使用大约 30 万个 B200 GPU。结合英伟达公司首席执行官黄仁勋分享的价格细节,该系统的成本可能高达 90 亿美元。马斯克认为,通过构建 H100 系统而不是与甲骨文公司合作,xAI 可以实现"最快的完成时间"。这位高管认为,该系统将于本月开始训练,并将成为"世界上功能最强大的训练集群"。在 Grok 或 ChatGPT 等模型准备好响应查询之前,它们需要在现有数据集上接受训练。这些数据集使它们能够根据已经学到的知识,从数学角度预测对用户问题的回复内容。当人工智能行业的主要参与者在 2024 年升级并推出新模型时,xAI 在这方面一直相对沉默。现在,马斯克透露,Grok 2 将于下月推出,因为该模型的大部分开发工作已经完成,xAI 正在进行最后的调整和错误修正。人工智能芯片炙手可热,并在不到一年的时间里推动英伟达成为全球第三大最有价值的公司。Facebook 的母公司 Meta 分享了其计划,即在 2024 年底之前积累 35 万个这样的芯片,以配合其人工智能平台。Meta、Google母公司 Alphabet、微软支持的 ChatGPT 和亚马逊的 Anthropic 都是世界领先的人工智能软件公司。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人