Google:引领AI推理工作量的是CPU而非GPU

Google:引领AI推理工作量的是CPU而非GPU人工智能的生命周期分为两个部分:训练和推理。在训练过程中,需要大量的计算能力和巨大的内存容量,以便将不断扩大的人工智能模型装入内存。最新的模型,如GPT-4和Gemini,包含数十亿个参数,需要数千个GPU或其他加速器并行工作,才能高效地进行训练。另一方面,推理所需的计算强度较低,但仍能从加速中获益。在推理过程中,会对预先训练好的模型进行优化和部署,以便对新数据进行预测。虽然推理所需的计算量比训练少,但延迟和吞吐量对实时推理至关重要。Google发现,虽然GPU是训练阶段的理想选择,但模型通常在CPU上进行优化和推理。这意味着,有些客户出于各种原因选择CPU作为人工智能推理的媒介。这可能是成本和可用性的问题。与高端GPU或专门的人工智能加速器相比,CPU往往更便宜,也更容易获得。对于许多应用而言,CPU能以较低的成本提供足够的推理性能。CPU还具有灵活性。由于大多数系统已经配备了CPU,它们为较小的人工智能模型提供了便捷的部署途径。GPU通常需要专门的库和驱动程序,而基于CPU的推理可以利用现有的基础设施。这使得将人工智能集成到现有产品和工作流程中变得更加简单。延迟和吞吐量的权衡也会发挥作用。GPU擅长大规模并行推理吞吐量。但CPU通常可以为实时请求提供更低的延迟。对于需要亚秒级响应的在线推荐等应用,CPU推理可能是首选。此外,CPU对推理的优化进展迅速。在更快的时钟、更多的内核以及英特尔AVX-512和AMX等新指令的推动下,性能不断提高,仅靠CPU就能流畅运行人工智能工作负载,如果服务器配置了不止一个插槽,意味着有更多的人工智能引擎存在,服务器就能高效处理数十亿参数大小的人工智能模型,则性能尤其出色。英特尔指出,一般来说,参数不超过200亿的模型在CPU上可以正常运行,而更大的模型则必须使用专门的加速器。像GPT-4、Claude和Gemini这样的人工智能模型都是庞大的模型,参数规模可达一万亿以上。然而,它们是多模式的,也就是说,它们处理文本和视频。现实世界中的企业工作负载可能是一个人工智能模型推断公司的本地文档,以回答客户支持问题。对于这种解决方案来说,运行GPT-4这样的模型就显得多余了。相比之下,像LLAMA2或Mistral这样小得多的模型可以很好地实现类似目的,而不需要第三方API访问,只需在本地或云服务器上运行几个CPU即可。这就降低了总体拥有成本(TCO),简化了人工智能管道。...PC版:https://www.cnbeta.com.tw/articles/soft/1422284.htm手机版:https://m.cnbeta.com.tw/view/1422284.htm

相关推荐

封面图片

【Aptos Labs与io.net合作开发AI模型和推理产品,以增强对可扩展GPU资源的访问】

【AptosLabs与io.net合作开发AI模型和推理产品,以增强对可扩展GPU资源的访问】2024年04月10日11点01分老不正经报道,AptosLabs与io.net签署了合作伙伴关系,以增强对可扩展GPU资源的访问,从而提高人工智能和机器学习能力。io.net和AptosLabs将合作开发一套人工智能模型和推理产品,以便将来在Aptos网络上发布。这些未来的产品显然将利用Aptos网络来促进支付。

封面图片

英特尔在整个CPU和GPU产品组合中为微软Phi-3 AI模型做好了准备

英特尔在整个CPU和GPU产品组合中为微软Phi-3AI模型做好了准备在讨论细节之前,我们先来看看微软的Phi-3开放模型系列。该公司的新GenAI模型侧重于在更小、更高效的层面上提供功能,偏离了行业规范。有了Phi-3,我们可以看到小语言模型(SLM)的出现,它是处理能力有限的低功耗设备的理想选择。英特尔已成为首批在其产品阵容中支持SLM的硬件制造商之一,现在英特尔的GaudiAI加速器、至强和酷睿UltraCPU以及英特尔的ArcGPU(独立和集成)都已优化,以支持微软的Phi-3型号。英特尔公司副总裁兼数据中心与人工智能软件部总经理PallaviMahajan介绍说:"我们利用业内最新的人工智能模型和软件,为客户和开发人员提供强大的人工智能解决方案。与人工智能软件生态系统中的其他领导者(如微软)积极合作,是让人工智能无处不在的关键。我们很荣幸能与微软密切合作,确保英特尔硬件(涵盖数据中心、边缘和客户端)积极支持几种新的Phi-3模型。"微软发布了多个Phi-3GenAI模型,并根据各自的参数进行了分类。这些型号包括迷你型、小型和中型;有趣的是,英特尔展示了其所有开放型号产品的性能。从英特尔第六代至强CPU(GraniteRapids)开始,该公司对Phi-3中型4k和128k变体进行了基准测试,与第五代至强(EmeraldRapids)相比,该平台的性能提高了2倍。谈到英特尔的酷睿UltraCPU平台,该公司表示,Phi-3型号将催化边缘人工智能进程,并将提供"个性化和响应速度"等多项优势。为此,该公司用英特尔酷睿Ultra7165H对Phi-3mini机型进行了测试,板载的独立GPU为ArcA770,基准测试确实显示出令人印象深刻的性能和词元生成延迟。微软Phi-3人工智能模型的首次亮相确实将为个性化人工智能计算时代打开新的大门,而凭借现代处理器所拥有的性能,运行这样的模型完全不是问题。...PC版:https://www.cnbeta.com.tw/articles/soft/1432319.htm手机版:https://m.cnbeta.com.tw/view/1432319.htm

封面图片

富士通新技术可优化人工智能和高性能计算工作负载的CPU和GPU分配

富士通新技术可优化人工智能和高性能计算工作负载的CPU和GPU分配富士通开发了两项新技术,旨在优化强大的高性能计算系统上的CPU和GPU工作负载。该公司正致力于实时分配资源,以更好地管理具有高执行效率的进程,同时优化多个程序的并行处理。富士通表示,新解决方案旨在解决生成学习和其他人工智能相关技术的爆炸性需求所导致的全球GPU短缺问题。这些优化技术包括一个"自适应GPU分配器"(AdaptiveGPUAllocator),它似乎可以检测出程序是需要在GPU加速器上执行还是在CPU上执行。分配器是作为一个独立的服务器实现的,旨在测量代码执行性能。如果程序希望在HPC系统中使用GPU,分配器服务器就会批准访问,同时检查GPU和CPU上迷你批处理作业的处理时间。如果GPU批次测试不能充分缩短处理时间,分配器就会继续在CPU上重新分配作业。不幸的是,程序需要专门编写,以便通过专用框架使用新的分配器服务器,富士通公司证实了这一点。另一种优化高性能计算工作负载的解决方案是交互式高性能计算(InteractiveHPC),富士通将其描述为世界上第一种"在高性能计算系统上实时切换多个程序执行"的技术。富士通解释说,传统的控制方法采用单播通信,将程序执行"逐个"切换到每台服务器上。交互式HPC采用广播通信方法,向HPC系统中的每个计算节点发送切换指令。富士通表示,在256节点的高性能计算环境中工作时,新方法似乎足以将进程切换时间从几秒缩短到100毫秒。富士通对新GPU分配技术的计划主要集中在AI平台"Kozuchi"上,该公司的人工智能平台旨在为客户提供测试"先进人工智能技术"的快速方法。这项HPC优化技术还将应用于富士通的40量子位量子计算机模拟器。在计算即服务的高性能计算环境中的进一步应用似乎也在考虑之中。...PC版:https://www.cnbeta.com.tw/articles/soft/1397253.htm手机版:https://m.cnbeta.com.tw/view/1397253.htm

封面图片

NVIDIA开源HPCG AI基准 支持Grace CPU以及Ampere和Hopper GPU

NVIDIA开源HPCGAI基准支持GraceCPU以及Ampere和HopperGPU自英伟达之前宣布为GeForceRTX20系列及以后的产品使用开源GPU内核以来,英伟达一直在寻求向更开源的方向转变,以促进其平台的开发,并在Linux方面大步迈进。这一次,该公司决定通过开源英伟达HPCG来帮助人工智能行业,该HPCG面向GraceSuperchips和Hopper系列架构等人工智能硬件。NVIDIA的HPCG是一个专为高性能计算应用设计的基准测试,主要通过多种数学运算来测试特定硬件在不同场景下的性能。这不仅能让NVIDIA展示其GPU的能力,而且该软件包在优化HPC系统方面发挥了重要作用。在人工智能和高性能计算应用大幅增长的时代,NVIDIAHPCG的开源意味着该公司决心看到资源的发展。以下是该公司自己详细介绍的主要功能:GitHub:https://github.com/NVIDIA/nvidia-hpcg主要特点NVIDIAHPCG基准利用NVIDIA高性能数学库:cuSPARSE和NVPLSparse,在NVIDIAGPU和GraceCPU上实现稀疏矩阵向量乘法(SpMV)和稀疏矩阵三角求解器(SpSV)的最高性能。NVIDIAHPCG基准支持高度可配置的命令行参数,以决定:GPU和GraceCPU的问题大小三维等级网格形状执行模式:纯CPU、纯GPU和异构点对点通信:MPI_Host(发送/回传)、MPI_Host_Alltoallv、MPI_CUDA_Aware、MPI_CUDA_Aware_Alltoallv和NCCLNUMA相关配置在兼容性方面,NVIDIAHPCG支持GraceCPU系统以及Ampere和HopperGPU架构。该软件也只能在Linux下运行,这限制了它的使用范围。不过,这仍然是一个有趣举动,它表明了NVIDIA公司对资产开源的承诺。...PC版:https://www.cnbeta.com.tw/articles/soft/1433279.htm手机版:https://m.cnbeta.com.tw/view/1433279.htm

封面图片

英伟达推出新创收产品 NIM 每个 GPU 4500 美元 / 年

英伟达推出新创收产品NIM每个GPU4500美元/年英伟达CEO黄仁勋在GTC宣布,将在其企业软件订阅中增加一款名为NIM的新产品。NIM可以更容易地使用旧的英伟达GPU进行推理,并允许公司继续使用他们已经拥有的数亿个英伟达GPU。该产品将使新人工智能模型的初始训练推理所需的算力更少。该公司的策略是让购买英伟达服务器的客户注册英伟达企业版,每个GPU每年收取费用4500美元。黄仁勋表示,该软件还将帮助在配备GPU的笔记本电脑上运行人工智能,而不是在云服务器上运行。

封面图片

消息称Meta计划开发新AI芯片,此前因迟迟未用GPU导致AI开发落后

消息称Meta计划开发新AI芯片,此前因迟迟未用GPU导致AI开发落后消息人士透露,Meta之前发展AI业务时,一直没有接受使用GPU,相反,直到去年,Meta都在主要使用CPU队列运行人工智能工作负载,这也是Meta在AI进程上落后对手的关键原因之一。Meta曾计划在2022年推出定制芯片,但后来放弃;同年其订购了数十亿美元的英伟达GPU。目前,Meta内部已开始计划开发一款新型芯片,类似GPU,既能训练AI模型,又能进行推理,该项目将于2025年左右完成。https://www.chinastarmarket.cn/detail/1334159https://www.reuters.com/article/meta-platforms-artificial-intelligence-idCAKBN2WM0R3

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人