谷歌推拥有26000个H100的超算 加速AI军备竞赛

谷歌推拥有26000个H100的超算加速AI军备竞赛这台超级计算机拥有大约26,000个NVIDIAH100HopperGPU。作为参考,世界上最快的公共超级计算机Frontier拥有37,000个AMDInstinct250XGPU。对于我们最大的客户,我们可以在单个集群中构建多达26,000个GPU的A3超级计算机,并正在努力在我们最大的地区构建多个集群,”Google发言人在一封电子邮件中说,并补充说“并非我们所有的位置都将是缩放到这么大的尺寸。”该系统是在加利福尼亚州山景城举行的GoogleI/O大会上宣布的。开发者大会已经成为Google许多人工智能软件和硬件能力的展示。在微软将OpenAI的技术应用于Bing搜索和办公生产力应用程序之后,Google加速了其AI开发。该超级计算机面向希望训练大型语言模型的客户。Google为希望使用超级计算机的公司宣布了随附的A3虚拟机实例。许多云提供商现在都在部署H100GPU,NVIDIA在3月份推出了自己的DGX云服务,与租用上一代A100GPU相比价格昂贵。Google表示,A3超级计算机是对现有A2虚拟机与NVIDIAA100GPU提供的计算资源的重大升级。Google正在将所有分布在不同地理位置的A3计算实例汇集到一台超级计算机中。“A3超级计算机的规模可提供高达26exaflops的AI性能,这大大减少了训练大型ML模型的时间和成本,”Google的董事RoyKim和产品经理ChrisKleban在一篇博客文章中说。公司使用exaflops性能指标来估计AI计算机的原始性能,但批评者仍然对其持保留意见。在Google的案例中,被大家诟病的是其结果在以ML为目标的bfloat16(“brainfloatingpoint”)性能中计算出来的,这让你达到“exaflops”的速度比大多数经典HPC应用程序仍然使用的双精度(FP64)浮点数学要快得多要求。GPU的数量已经成为云提供商推广其AI计算服务的重要名片。微软在Azure中的AI超级计算机与OpenAI合作构建,拥有285,000个CPU内核和10,000个GPU。微软还宣布了配备更多GPU的下一代AI超级计算机。Oracle的云服务提供对512个GPU集群的访问,并且正在研究新技术以提高GPU通信的速度。Google一直在大肆宣传其TPUv4人工智能芯片,这些芯片被用于运行带有LLM的内部人工智能应用程序,例如Google的Bard产品。Google的AI子公司DeepMind表示,快速TPU正在指导通用和科学应用的AI开发。相比之下,Google的A3超级计算机用途广泛,可以针对广泛的AI应用程序和LLM进行调整。Kim和Kleban在博文中表示:“鉴于这些工作负载的高要求,一刀切的方法是不够的——你需要专为AI构建的基础设施。”就像Google喜欢它的TPU一样,NVIDIA的GPU已经成为云提供商的必需品,因为客户正在CUDA中编写AI应用程序,这是NVIDIA专有的并行编程模型。该软件工具包基于H100的专用AI和图形内核提供的加速生成最快的结果。GoogleTPUv4客户可以通过A3虚拟机运行AI应用程序,并通过VertexAI、GoogleKubernetesEngine和GoogleComputeEngine服务使用Google的AI开发和管理服务。公司可以使用A3超级计算机上的GPU作为一次性租用,结合大型语言模型来训练大型模型。然后,将新数据输入模型,更新模型——无需从头开始重新训练。Google的A3超级计算机是各种技术的大杂烩,以提高GPU到GPU的通信和网络性能。A3虚拟机基于英特尔第四代Xeon芯片(代号SapphireRapids),与H100GPU一起提供。目前尚不清楚VM中的虚拟CPU是否会支持SapphireRapids芯片中内置的推理加速器。VM随附DDR5内存。NVIDIAH100上的训练模型比在云端广泛使用的上一代A100GPU更快、更便宜。人工智能服务公司MosaicML进行的一项研究发现,H100在其70亿参数的MosaicGPT大型语言模型上“比NVIDIAA100的成本效益高30%,速度快3倍”。H100也可以进行推理,但考虑到H100提供的处理能力,这可能被认为是矫枉过正。Google云提供NVIDIA的L4GPU用于推理,英特尔在其SapphireRapidsCPU中拥有推理加速器。“A3VM也非常适合推理工作负载,与我们的A2VM的A100GPU相比,推理性能提升高达30倍,”Google的Kim和Kleban说。A3虚拟机是第一个通过名为MountEvans的基础设施处理单元连接GPU实例的虚拟机,该单元由Google和英特尔联合开发。IPU允许A3虚拟机卸载网络、存储管理和安全功能,这些功能传统上是在虚拟CPU上完成的。IPU允许以200Gbps的速度传输数据。“A3是第一个使用我们定制设计的200GbpsIPU的GPU实例,GPU到GPU的数据传输绕过CPU主机并流经与其他VM网络和数据流量不同的接口。与我们的A2虚拟机相比,这使网络带宽增加了10倍,具有低尾延迟和高带宽稳定性,”Google高管在一篇博客文章中说。IPU的吞吐量可能很快就会受到微软的挑战,微软即将推出的配备NVIDIAH100GPU的AI超级计算机将拥有该芯片制造商的Quantum-2400Gbps网络功能。微软尚未透露其下一代AI超级计算机中H100GPU的数量。A3超级计算机建立在源自公司Jupiter数据中心网络结构的主干上,该主干通过光学链路连接地理上不同的GPU集群。“对于几乎每一种工作负载结构,我们都实现了与更昂贵的现成非阻塞网络结构无法区分的工作负载带宽,”Google表示。Google还分享说,A3超级计算机将有八个H100GPU,它们使用NVIDIA专有的交换和芯片互连技术互连。GPU将通过NVSwitch和NVLink互连连接,其通信速度约为3.6TBps。Azure在其AI超级计算机上提供了相同的速度,并且两家公司都部署了NVIDIA的电路板设计。“每台服务器都使用服务器内部的NVLink和NVSwitch将8个GPU互连在一起。为了让GPU服务器相互通信,我们在JupiterDC网络结构上使用了多个IPU,”一位Google发言人说。该设置有点类似于NVIDIA的DGXSuperpod,它具有127个节点的设置,每个DGX节点配备八个H100GPU。Google博客:配备NVIDIAH100GPU的A3超级计算机实施最先进的人工智能(AI)和机器学习(ML)模型需要大量计算,既要训练基础模型,又要在这些模型经过训练后为它们提供服务。考虑到这些工作负载的需求,一种放之四海而皆准的方法是不够的——您需要专为AI构建的基础设施。我们与我们的合作伙伴一起,为ML用例提供广泛的计算选项,例如大型语言模型(LLM)、生成AI和扩散模型。最近,我们发布了G2VMs,成为第一个提供新的NVIDIAL4TensorCoreGPU用于服务生成式AI工作负载的云。今天,我们通过推出下一代A3GPU超级计算机的私人预览版来扩展该产品组合。GoogleCloud现在提供一整套GPU选项,用于训练和推理ML模型。GoogleComputeEngineA3超级计算机专为训练和服务要求最严苛的AI模型而打造,这些模型为当今的生成式AI和大型语言模型创新提供动力。我们的A3VM结合了NVIDIAH100TensorCoreGPU和Google领先的网络技术,可为各种规模的客户提供服务:1.A3是第一个使用我们定制设计的200GbpsIPU的GPU实例,GPU到GPU的数据传输绕过CPU主机并流过与其他VM网络和数据流量不同的接口。与我们的A2VM相比,这可实现高达10倍的网络带宽,同时具有低尾延迟和高带宽稳定性。2.我们行业独一无二的智能Jupiter数据中心网络结构可扩展到数万个高度互连的GPU,并允许全带宽可重新配置的光学链路,可以按需调整拓扑。对于几乎每种工作负载结构,我们实现的工作负载带宽与更昂贵的现成非阻塞网络结构没有区别,从而降低了TCO。3.A3超级计算机的规模提供高达26exaFlops的AI性能,这大大减少了训练大型ML模型的时间和成本。随着公司从训练过渡到提供ML模型,A3VM也非常适合推理工作负载,与...PC版:https://www.cnbeta.com.tw/articles/soft/1359089.htm手机版:https://m.cnbeta.com.tw/view/1359089.htm

相关推荐

封面图片

Inflection AI宣布打造2.2万块H100计算卡的AI超级计算机

InflectionAI宣布打造2.2万块H100计算卡的AI超级计算机一家名为"InflectionAI"的人工智能创业公司近日宣布,他们计划利用2.2万块NVIDIAH100计算卡打造一台规模宏大的AI超级计算机。这台超级计算机将由近700个机柜组成,每个机柜还将配备四块Intel至强处理器,旨在提供卓越的计算能力。据悉,该系统的功耗预计将达到31兆瓦,相当于每小时消耗3.1万度电。InflectionAI此次计划打造的AI超级计算机被视为世界顶级之一,而能够轻松获取大量NVIDIAH100计算卡的原因在于,NVIDIA正准备对该公司进行投资。来源,来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

封面图片

谷歌配备 Nvidia H100 GPU 的新型 A3 GPU 超级计算机将于下个月全面上市

谷歌配备NvidiaH100GPU的新型A3GPU超级计算机将于下个月全面上市尽管价格超过30,000美元,Nvidia的H100GPU仍然是一种热门商品,以至于通常会出现缺货的情况。今年早些时候,谷歌云宣布推出其H100支持的A3GPU虚拟机的私人预览版,该虚拟机将Nvidia的芯片与谷歌定制设计的200Gpbs基础设施处理单元(IPU)结合在一起。现在,在CloudNext会议上,谷歌宣布将于下个月全面推出A3。去年发布A3时,谷歌云表示它将提供高达26exaflops的AI性能,并且部分得益于定制IPU,与上一代A2机器相比,网络带宽提高了10倍。投稿:@ZaiHuaBot频道:@TestFlightCN

封面图片

谷歌公布新一代AI超算 称比英伟达A100更快、更节能

谷歌公布新一代AI超算称比英伟达A100更快、更节能目前,谷歌TPU已经进入第四代。谷歌公司在周二发布了一篇科学论文,详细介绍了如何利用自己开发的定制光开关将4000多个芯片连接成一个超级计算机。对于构建AI超级计算机的公司来说,改善这些连接已经成为竞争的关键点,因为所谓的大规模语言模型正在不断增大,已无法在单个芯片上存储,而这些模型正驱动着谷歌的Bard或OpenAI的ChatGPT等技术。这类模型必须分布在成千上万的芯片之间,然后这些芯片要在数周或更长时间内协同工作来训练模型。谷歌的PaLM模型,是迄今为止公开披露的最大语言模型,它通过分布在两台4000芯片的超级计算机上进行了50天的训练。谷歌表示,其超级计算机可以轻松地动态重新配置芯片之间的连接,有助于避免故障并进行性能优化。“电路交换使得我们能够轻松避开故障组件,”谷歌高级研究员NormJouppi和谷歌杰出工程师DavidPatterson在一篇关于该系统的博客文章中写道。“这种灵活性甚至使我们能够改变超级计算机互联网络的拓扑结构,以加速ML(机器学习)模型的性能。”虽然谷歌直到现在才公开其超级计算机的详细信息,但它自2020年以来就已经在俄克拉荷马州梅斯县的数据中心内运行。谷歌表示,初创公司Midjourney使用该系统来训练其模型,该模型在输入几个词的文本后可以生成新的图像。谷歌在论文中表示,与相同规模的系统相比,它的超级计算机比基于英伟达A100芯片的系统更快1.7倍,更节能1.9倍。据了解,A100芯片早于第四代TPU面市。谷歌表示,它没有将第四代TPU与英伟达当前旗舰H100芯片进行比较,因为H100是在谷歌这款芯片应用后上市的,并且采用了更新的技术。谷歌暗示正在研发一款新的TPU,将与英伟达H100竞争,但没有提供详细信息。Jouppi告诉媒体,谷歌有“充足的未来芯片储备”。...PC版:https://www.cnbeta.com.tw/articles/soft/1353045.htm手机版:https://m.cnbeta.com.tw/view/1353045.htm

封面图片

特斯拉可能拥有多达十余万片英伟达H100 而xAI也拥有大量高性能GPU储备

特斯拉可能拥有多达十余万片英伟达H100而xAI也拥有大量高性能GPU储备X帐户"技术兄弟"最近发布消息称,马克-扎克伯格的Meta公司目前已拥有全球最大的H100GPU“武器库”之一,数量约为35万个。不过,马斯克对该表格中特斯拉和xAI的排名不以为然,他指出:"如果衡量正确的话,特斯拉会排在第二位,X/xAI会排在第三位。"假设其他条件不变,这意味着特斯拉现在拥有3万到35万块英伟达H100GPU。另一方面,xAI现在可能拥有2.6万到3万块英伟达AI计算卡。早在今年1月,埃隆-马斯克(ElonMusk)在确认对特斯拉Dojo超级计算机投资5亿美元(相当于约1万个H100GPU)的同时,还宣布这家电动汽车巨头"今年在英伟达硬件上的花费将超过这个数字",因为"在人工智能领域具有竞争力的赌注目前每年至少有几十亿美元"。在马斯克从DeepMind、OpenAI、Google研究院、微软研究院、特斯拉和多伦多大学聘请人才,从头开始建立自己的人工智能企业时,xAI曾在2023年购买了大约1万台英伟达的GPU。不过,可以合理推断,这些采购很可能与A100GPU有关。此后,从马斯克最新发布的X帖子中可以推断,xAI似乎还积累了大量的H100GPU。当然,考虑到人工智能领域的创新速度,这些H100GPU很快就会过时。早在今年3月,英伟达就发布了GB200GraceBlackwell超级芯片,将一个基于Arms的GraceCPU与两个BlackwellB100GPU结合在一起。该系统可以部署一个包含27万亿个参数的人工智能模型,在执行聊天机器人提供答案等任务时,速度有望提高30倍。...PC版:https://www.cnbeta.com.tw/articles/soft/1426690.htm手机版:https://m.cnbeta.com.tw/view/1426690.htm

封面图片

1万颗NVIDIA H100 GPU为价值3亿美元的特斯拉超级计算机提供算力

1万颗NVIDIAH100GPU为价值3亿美元的特斯拉超级计算机提供算力据报道,特斯拉已经升级了英伟达的A100s,计算性能提高了约五倍,达到了340FP64PFLOPS,与业内其他超级计算机相比,性能明显提高。埃隆-马斯克将目光投向了FSD,并表示这是特斯拉的未来。该公司已将资源投入到该功能的发展中,目前仍处于初始阶段。到2024年,随着耗资10亿美元的Dojo超级计算机的启动,特斯拉将拥有巨大的计算能力,这将使其比其他汽车制造商更具优势,尤其是在利用人工智能力量的功能方面。特斯拉计划斥资40多亿美元发展FSD和AI车型,这表明该行业的未来令人兴奋。然而,在如此巨大的雄心背后,英伟达公司的AIGPU却难以获得,原因是巨大的需求和供应链瓶颈。埃隆曾表示,人工智能GPU比"毒品"还难买,这也是行业现状的最终写照。汽车行业的未来是光明的,尤其是借助人工智能,将其融入我们的日常生活,特斯拉在FSD方面的雄心壮志将被证明是该行业的革命性变革,它的开发和测试过程都非常有章法。...PC版:https://www.cnbeta.com.tw/articles/soft/1380849.htm手机版:https://m.cnbeta.com.tw/view/1380849.htm

封面图片

谷歌推出第五代AI芯片:训练和运行AI模型的速度提高5倍

谷歌推出第五代AI芯片:训练和运行AI模型的速度提高5倍TPU是Google为神经网络设计的专用芯片,TPU经过优化可加快机器学习模型的训练和推断速度,2016年推出第一代TPU,2021年发布第四代定制处理器TPU,2022年面向开发者提供。云TPU(CloudTPU)是一项Google云服务,适合训练需要进行大量矩阵计算的大型复杂深度学习模型,例如大语言模型、蛋白质折叠建模和药物研发等,帮助企业在实现AI工作负载时节省资金和时间。此次推出的TPUv5e专为中大型模型训练和推理所需的成本效益和性能而构建。Google云表示,该版本芯片的开发重点是效率,与上一代TPUv4相比,TPUv5e每一美元的训练性能提高2倍,每一美元的推理性能提高2.5倍,而成本不到TPUv4的一半,使得更多组织能够训练和部署更大更复杂的AI模型。客户不需要通过牺牲性能或灵活性来获得这些成本效益。Google云将TPUv5e描述为“超级计算机”,最多允许256个芯片互连,总带宽超过400Tb/s,支持八种不同的虚拟机配置,客户可选择合适的配置服务于各种大语言模型和生成式AI模型。根据速度基准测试,在TPUv5e上训练和运行AI模型时速度提高了5倍。据科技媒体TechCrunch报道,Google云计算和机器学习基础设施副总裁兼总经理马克·洛迈尔(MarkLohmeyer)表示,“这是迄今为止最具成本效益且易于访问的云TPU。”洛迈尔强调,Google云确保用户能够将其TPU集群扩展到以前无法达到的水平,让客户能够轻松扩展他们的人工智能模型,超越单个TPU集群的物理边界。也就是说,单个大型人工智能工作负载可以跨越多个物理TPU集群,扩展到数万个芯片,并且经济高效。“在云GPU和云TPU方面,我们为客户提供了很多选择和灵活性,以满足我们看到的人工智能工作负载的广泛需求。”除了新一代TPU,Google云还宣布将在下个月推出基于英伟达H100GPU的A3系列虚拟机,作为GPU超级计算机进行交付,为人工智能大模型提供动力。...PC版:https://www.cnbeta.com.tw/articles/soft/1380537.htm手机版:https://m.cnbeta.com.tw/view/1380537.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人