谷歌推拥有26000个H100的超算 加速AI军备竞赛
谷歌推拥有26000个H100的超算加速AI军备竞赛这台超级计算机拥有大约26,000个NVIDIAH100HopperGPU。作为参考,世界上最快的公共超级计算机Frontier拥有37,000个AMDInstinct250XGPU。对于我们最大的客户,我们可以在单个集群中构建多达26,000个GPU的A3超级计算机,并正在努力在我们最大的地区构建多个集群,”Google发言人在一封电子邮件中说,并补充说“并非我们所有的位置都将是缩放到这么大的尺寸。”该系统是在加利福尼亚州山景城举行的GoogleI/O大会上宣布的。开发者大会已经成为Google许多人工智能软件和硬件能力的展示。在微软将OpenAI的技术应用于Bing搜索和办公生产力应用程序之后,Google加速了其AI开发。该超级计算机面向希望训练大型语言模型的客户。Google为希望使用超级计算机的公司宣布了随附的A3虚拟机实例。许多云提供商现在都在部署H100GPU,NVIDIA在3月份推出了自己的DGX云服务,与租用上一代A100GPU相比价格昂贵。Google表示,A3超级计算机是对现有A2虚拟机与NVIDIAA100GPU提供的计算资源的重大升级。Google正在将所有分布在不同地理位置的A3计算实例汇集到一台超级计算机中。“A3超级计算机的规模可提供高达26exaflops的AI性能,这大大减少了训练大型ML模型的时间和成本,”Google的董事RoyKim和产品经理ChrisKleban在一篇博客文章中说。公司使用exaflops性能指标来估计AI计算机的原始性能,但批评者仍然对其持保留意见。在Google的案例中,被大家诟病的是其结果在以ML为目标的bfloat16(“brainfloatingpoint”)性能中计算出来的,这让你达到“exaflops”的速度比大多数经典HPC应用程序仍然使用的双精度(FP64)浮点数学要快得多要求。GPU的数量已经成为云提供商推广其AI计算服务的重要名片。微软在Azure中的AI超级计算机与OpenAI合作构建,拥有285,000个CPU内核和10,000个GPU。微软还宣布了配备更多GPU的下一代AI超级计算机。Oracle的云服务提供对512个GPU集群的访问,并且正在研究新技术以提高GPU通信的速度。Google一直在大肆宣传其TPUv4人工智能芯片,这些芯片被用于运行带有LLM的内部人工智能应用程序,例如Google的Bard产品。Google的AI子公司DeepMind表示,快速TPU正在指导通用和科学应用的AI开发。相比之下,Google的A3超级计算机用途广泛,可以针对广泛的AI应用程序和LLM进行调整。Kim和Kleban在博文中表示:“鉴于这些工作负载的高要求,一刀切的方法是不够的——你需要专为AI构建的基础设施。”就像Google喜欢它的TPU一样,NVIDIA的GPU已经成为云提供商的必需品,因为客户正在CUDA中编写AI应用程序,这是NVIDIA专有的并行编程模型。该软件工具包基于H100的专用AI和图形内核提供的加速生成最快的结果。GoogleTPUv4客户可以通过A3虚拟机运行AI应用程序,并通过VertexAI、GoogleKubernetesEngine和GoogleComputeEngine服务使用Google的AI开发和管理服务。公司可以使用A3超级计算机上的GPU作为一次性租用,结合大型语言模型来训练大型模型。然后,将新数据输入模型,更新模型——无需从头开始重新训练。Google的A3超级计算机是各种技术的大杂烩,以提高GPU到GPU的通信和网络性能。A3虚拟机基于英特尔第四代Xeon芯片(代号SapphireRapids),与H100GPU一起提供。目前尚不清楚VM中的虚拟CPU是否会支持SapphireRapids芯片中内置的推理加速器。VM随附DDR5内存。NVIDIAH100上的训练模型比在云端广泛使用的上一代A100GPU更快、更便宜。人工智能服务公司MosaicML进行的一项研究发现,H100在其70亿参数的MosaicGPT大型语言模型上“比NVIDIAA100的成本效益高30%,速度快3倍”。H100也可以进行推理,但考虑到H100提供的处理能力,这可能被认为是矫枉过正。Google云提供NVIDIA的L4GPU用于推理,英特尔在其SapphireRapidsCPU中拥有推理加速器。“A3VM也非常适合推理工作负载,与我们的A2VM的A100GPU相比,推理性能提升高达30倍,”Google的Kim和Kleban说。A3虚拟机是第一个通过名为MountEvans的基础设施处理单元连接GPU实例的虚拟机,该单元由Google和英特尔联合开发。IPU允许A3虚拟机卸载网络、存储管理和安全功能,这些功能传统上是在虚拟CPU上完成的。IPU允许以200Gbps的速度传输数据。“A3是第一个使用我们定制设计的200GbpsIPU的GPU实例,GPU到GPU的数据传输绕过CPU主机并流经与其他VM网络和数据流量不同的接口。与我们的A2虚拟机相比,这使网络带宽增加了10倍,具有低尾延迟和高带宽稳定性,”Google高管在一篇博客文章中说。IPU的吞吐量可能很快就会受到微软的挑战,微软即将推出的配备NVIDIAH100GPU的AI超级计算机将拥有该芯片制造商的Quantum-2400Gbps网络功能。微软尚未透露其下一代AI超级计算机中H100GPU的数量。A3超级计算机建立在源自公司Jupiter数据中心网络结构的主干上,该主干通过光学链路连接地理上不同的GPU集群。“对于几乎每一种工作负载结构,我们都实现了与更昂贵的现成非阻塞网络结构无法区分的工作负载带宽,”Google表示。Google还分享说,A3超级计算机将有八个H100GPU,它们使用NVIDIA专有的交换和芯片互连技术互连。GPU将通过NVSwitch和NVLink互连连接,其通信速度约为3.6TBps。Azure在其AI超级计算机上提供了相同的速度,并且两家公司都部署了NVIDIA的电路板设计。“每台服务器都使用服务器内部的NVLink和NVSwitch将8个GPU互连在一起。为了让GPU服务器相互通信,我们在JupiterDC网络结构上使用了多个IPU,”一位Google发言人说。该设置有点类似于NVIDIA的DGXSuperpod,它具有127个节点的设置,每个DGX节点配备八个H100GPU。Google博客:配备NVIDIAH100GPU的A3超级计算机实施最先进的人工智能(AI)和机器学习(ML)模型需要大量计算,既要训练基础模型,又要在这些模型经过训练后为它们提供服务。考虑到这些工作负载的需求,一种放之四海而皆准的方法是不够的——您需要专为AI构建的基础设施。我们与我们的合作伙伴一起,为ML用例提供广泛的计算选项,例如大型语言模型(LLM)、生成AI和扩散模型。最近,我们发布了G2VMs,成为第一个提供新的NVIDIAL4TensorCoreGPU用于服务生成式AI工作负载的云。今天,我们通过推出下一代A3GPU超级计算机的私人预览版来扩展该产品组合。GoogleCloud现在提供一整套GPU选项,用于训练和推理ML模型。GoogleComputeEngineA3超级计算机专为训练和服务要求最严苛的AI模型而打造,这些模型为当今的生成式AI和大型语言模型创新提供动力。我们的A3VM结合了NVIDIAH100TensorCoreGPU和Google领先的网络技术,可为各种规模的客户提供服务:1.A3是第一个使用我们定制设计的200GbpsIPU的GPU实例,GPU到GPU的数据传输绕过CPU主机并流过与其他VM网络和数据流量不同的接口。与我们的A2VM相比,这可实现高达10倍的网络带宽,同时具有低尾延迟和高带宽稳定性。2.我们行业独一无二的智能Jupiter数据中心网络结构可扩展到数万个高度互连的GPU,并允许全带宽可重新配置的光学链路,可以按需调整拓扑。对于几乎每种工作负载结构,我们实现的工作负载带宽与更昂贵的现成非阻塞网络结构没有区别,从而降低了TCO。3.A3超级计算机的规模提供高达26exaFlops的AI性能,这大大减少了训练大型ML模型的时间和成本。随着公司从训练过渡到提供ML模型,A3VM也非常适合推理工作负载,与...PC版:https://www.cnbeta.com.tw/articles/soft/1359089.htm手机版:https://m.cnbeta.com.tw/view/1359089.htm