Google:引领AI推理工作量的是CPU而非GPU
Google:引领AI推理工作量的是CPU而非GPU人工智能的生命周期分为两个部分:训练和推理。在训练过程中,需要大量的计算能力和巨大的内存容量,以便将不断扩大的人工智能模型装入内存。最新的模型,如GPT-4和Gemini,包含数十亿个参数,需要数千个GPU或其他加速器并行工作,才能高效地进行训练。另一方面,推理所需的计算强度较低,但仍能从加速中获益。在推理过程中,会对预先训练好的模型进行优化和部署,以便对新数据进行预测。虽然推理所需的计算量比训练少,但延迟和吞吐量对实时推理至关重要。Google发现,虽然GPU是训练阶段的理想选择,但模型通常在CPU上进行优化和推理。这意味着,有些客户出于各种原因选择CPU作为人工智能推理的媒介。这可能是成本和可用性的问题。与高端GPU或专门的人工智能加速器相比,CPU往往更便宜,也更容易获得。对于许多应用而言,CPU能以较低的成本提供足够的推理性能。CPU还具有灵活性。由于大多数系统已经配备了CPU,它们为较小的人工智能模型提供了便捷的部署途径。GPU通常需要专门的库和驱动程序,而基于CPU的推理可以利用现有的基础设施。这使得将人工智能集成到现有产品和工作流程中变得更加简单。延迟和吞吐量的权衡也会发挥作用。GPU擅长大规模并行推理吞吐量。但CPU通常可以为实时请求提供更低的延迟。对于需要亚秒级响应的在线推荐等应用,CPU推理可能是首选。此外,CPU对推理的优化进展迅速。在更快的时钟、更多的内核以及英特尔AVX-512和AMX等新指令的推动下,性能不断提高,仅靠CPU就能流畅运行人工智能工作负载,如果服务器配置了不止一个插槽,意味着有更多的人工智能引擎存在,服务器就能高效处理数十亿参数大小的人工智能模型,则性能尤其出色。英特尔指出,一般来说,参数不超过200亿的模型在CPU上可以正常运行,而更大的模型则必须使用专门的加速器。像GPT-4、Claude和Gemini这样的人工智能模型都是庞大的模型,参数规模可达一万亿以上。然而,它们是多模式的,也就是说,它们处理文本和视频。现实世界中的企业工作负载可能是一个人工智能模型推断公司的本地文档,以回答客户支持问题。对于这种解决方案来说,运行GPT-4这样的模型就显得多余了。相比之下,像LLAMA2或Mistral这样小得多的模型可以很好地实现类似目的,而不需要第三方API访问,只需在本地或云服务器上运行几个CPU即可。这就降低了总体拥有成本(TCO),简化了人工智能管道。...PC版:https://www.cnbeta.com.tw/articles/soft/1422284.htm手机版:https://m.cnbeta.com.tw/view/1422284.htm
在Telegram中查看相关推荐
🔍 发送关键词来寻找群组、频道或视频。
启动SOSO机器人