微软 Azure ND H100 v5 虚拟机发布:采用 8 至上千个 NVIDIA H100 Tensor Core GPU

微软AzureNDH100v5虚拟机发布:采用8至上千个NVIDIAH100TensorCoreGPU微软现推出NDH100v5VM,是Azure迄今更强大和高度可伸缩的AI虚拟机系列。该虚拟机支持的按需配置可达8至上千个通过Quantum-2InfiniBand网络互连的NVIDIAH100GPU,使得AI模型的性能明显提高。相较上一代NDA100v4VM,本次推出的虚拟机包含以下创新技术:8xNVIDIAH100TensorCoreGPU透过下一代NVSwitch和NVLink4.0互连每个GPU400Gb/sNVIDIAQuantum-2CX7InfiniBand在无阻塞胖树网络中每个虚拟机3.2Tb/sNVSwitch和NVLink4.0在每个虚拟机中的3个本地GPU之间具有6.8TB/s的对分割带宽第四代英特尔至强可扩展处理器PCIE第5代主机到GPU互连,每个GPU带宽为64GB/s16通道4800MHzDDR5内存来源,来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

相关推荐

封面图片

微软推出 ND H100 v5 虚拟机:采用英伟达 H100 GPU,满足企业 ChatGPT 生成式 AI 需求

微软推出NDH100v5虚拟机:采用英伟达H100GPU,满足企业ChatGPT生成式AI需求微软于今天宣布加强和英伟达的合作,将GPU从此前的A100升级到H100,推出专门针对人工智能开发的全新的虚拟机。微软表示该虚拟机主要面向需要整合或开发人工智能的企业,配置如下:▪8块英伟达H100TensorCoreGPU,通过下一代NVSwitch和NVLink4.0互连▪在非阻塞(non-blocking)的胖树(Fat-Tree)架构网络下,每块GPU的NVIDIAQuantum-2CX7InfiniBand性能可以达到400Gb/s,每台虚拟机可以达到3.2Tb/s。▪通过NVSwitch和NVLink4.0,每台虚拟机内的8个本地GPU之间的对分带宽为3.6TB/s。▪采用英特尔第4代XeonScalable处理器▪使用PCIeGen5连接GPU,每个GPU带宽为64GB/s▪16通道4800MHzDDR5DIMM微软先前在AzureOpenAI服务中宣布了ChatGPT相关服务,而本次虚拟机是该服务的补充,它允许第三方通过Azure访问聊天机器人技术。来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

封面图片

强大的NVIDIA H100 Tensor Core GPU将于10月发货

强大的NVIDIAH100TensorCoreGPU将于10月发货在今天的GTC会议主题演讲中,NVIDIA宣布其H100TensorCoreGPU已全面投产,戴尔、联想、思科、Atos、富士通、技嘉、惠普企业和超微等技术合作伙伴将在下个月开始交付围绕H100构建的产品。PC版:https://www.cnbeta.com/articles/soft/1318635.htm手机版:https://m.cnbeta.com/view/1318635.htm

封面图片

谷歌推拥有26000个H100的超算 加速AI军备竞赛

谷歌推拥有26000个H100的超算加速AI军备竞赛这台超级计算机拥有大约26,000个NVIDIAH100HopperGPU。作为参考,世界上最快的公共超级计算机Frontier拥有37,000个AMDInstinct250XGPU。对于我们最大的客户,我们可以在单个集群中构建多达26,000个GPU的A3超级计算机,并正在努力在我们最大的地区构建多个集群,”Google发言人在一封电子邮件中说,并补充说“并非我们所有的位置都将是缩放到这么大的尺寸。”该系统是在加利福尼亚州山景城举行的GoogleI/O大会上宣布的。开发者大会已经成为Google许多人工智能软件和硬件能力的展示。在微软将OpenAI的技术应用于Bing搜索和办公生产力应用程序之后,Google加速了其AI开发。该超级计算机面向希望训练大型语言模型的客户。Google为希望使用超级计算机的公司宣布了随附的A3虚拟机实例。许多云提供商现在都在部署H100GPU,NVIDIA在3月份推出了自己的DGX云服务,与租用上一代A100GPU相比价格昂贵。Google表示,A3超级计算机是对现有A2虚拟机与NVIDIAA100GPU提供的计算资源的重大升级。Google正在将所有分布在不同地理位置的A3计算实例汇集到一台超级计算机中。“A3超级计算机的规模可提供高达26exaflops的AI性能,这大大减少了训练大型ML模型的时间和成本,”Google的董事RoyKim和产品经理ChrisKleban在一篇博客文章中说。公司使用exaflops性能指标来估计AI计算机的原始性能,但批评者仍然对其持保留意见。在Google的案例中,被大家诟病的是其结果在以ML为目标的bfloat16(“brainfloatingpoint”)性能中计算出来的,这让你达到“exaflops”的速度比大多数经典HPC应用程序仍然使用的双精度(FP64)浮点数学要快得多要求。GPU的数量已经成为云提供商推广其AI计算服务的重要名片。微软在Azure中的AI超级计算机与OpenAI合作构建,拥有285,000个CPU内核和10,000个GPU。微软还宣布了配备更多GPU的下一代AI超级计算机。Oracle的云服务提供对512个GPU集群的访问,并且正在研究新技术以提高GPU通信的速度。Google一直在大肆宣传其TPUv4人工智能芯片,这些芯片被用于运行带有LLM的内部人工智能应用程序,例如Google的Bard产品。Google的AI子公司DeepMind表示,快速TPU正在指导通用和科学应用的AI开发。相比之下,Google的A3超级计算机用途广泛,可以针对广泛的AI应用程序和LLM进行调整。Kim和Kleban在博文中表示:“鉴于这些工作负载的高要求,一刀切的方法是不够的——你需要专为AI构建的基础设施。”就像Google喜欢它的TPU一样,NVIDIA的GPU已经成为云提供商的必需品,因为客户正在CUDA中编写AI应用程序,这是NVIDIA专有的并行编程模型。该软件工具包基于H100的专用AI和图形内核提供的加速生成最快的结果。GoogleTPUv4客户可以通过A3虚拟机运行AI应用程序,并通过VertexAI、GoogleKubernetesEngine和GoogleComputeEngine服务使用Google的AI开发和管理服务。公司可以使用A3超级计算机上的GPU作为一次性租用,结合大型语言模型来训练大型模型。然后,将新数据输入模型,更新模型——无需从头开始重新训练。Google的A3超级计算机是各种技术的大杂烩,以提高GPU到GPU的通信和网络性能。A3虚拟机基于英特尔第四代Xeon芯片(代号SapphireRapids),与H100GPU一起提供。目前尚不清楚VM中的虚拟CPU是否会支持SapphireRapids芯片中内置的推理加速器。VM随附DDR5内存。NVIDIAH100上的训练模型比在云端广泛使用的上一代A100GPU更快、更便宜。人工智能服务公司MosaicML进行的一项研究发现,H100在其70亿参数的MosaicGPT大型语言模型上“比NVIDIAA100的成本效益高30%,速度快3倍”。H100也可以进行推理,但考虑到H100提供的处理能力,这可能被认为是矫枉过正。Google云提供NVIDIA的L4GPU用于推理,英特尔在其SapphireRapidsCPU中拥有推理加速器。“A3VM也非常适合推理工作负载,与我们的A2VM的A100GPU相比,推理性能提升高达30倍,”Google的Kim和Kleban说。A3虚拟机是第一个通过名为MountEvans的基础设施处理单元连接GPU实例的虚拟机,该单元由Google和英特尔联合开发。IPU允许A3虚拟机卸载网络、存储管理和安全功能,这些功能传统上是在虚拟CPU上完成的。IPU允许以200Gbps的速度传输数据。“A3是第一个使用我们定制设计的200GbpsIPU的GPU实例,GPU到GPU的数据传输绕过CPU主机并流经与其他VM网络和数据流量不同的接口。与我们的A2虚拟机相比,这使网络带宽增加了10倍,具有低尾延迟和高带宽稳定性,”Google高管在一篇博客文章中说。IPU的吞吐量可能很快就会受到微软的挑战,微软即将推出的配备NVIDIAH100GPU的AI超级计算机将拥有该芯片制造商的Quantum-2400Gbps网络功能。微软尚未透露其下一代AI超级计算机中H100GPU的数量。A3超级计算机建立在源自公司Jupiter数据中心网络结构的主干上,该主干通过光学链路连接地理上不同的GPU集群。“对于几乎每一种工作负载结构,我们都实现了与更昂贵的现成非阻塞网络结构无法区分的工作负载带宽,”Google表示。Google还分享说,A3超级计算机将有八个H100GPU,它们使用NVIDIA专有的交换和芯片互连技术互连。GPU将通过NVSwitch和NVLink互连连接,其通信速度约为3.6TBps。Azure在其AI超级计算机上提供了相同的速度,并且两家公司都部署了NVIDIA的电路板设计。“每台服务器都使用服务器内部的NVLink和NVSwitch将8个GPU互连在一起。为了让GPU服务器相互通信,我们在JupiterDC网络结构上使用了多个IPU,”一位Google发言人说。该设置有点类似于NVIDIA的DGXSuperpod,它具有127个节点的设置,每个DGX节点配备八个H100GPU。Google博客:配备NVIDIAH100GPU的A3超级计算机实施最先进的人工智能(AI)和机器学习(ML)模型需要大量计算,既要训练基础模型,又要在这些模型经过训练后为它们提供服务。考虑到这些工作负载的需求,一种放之四海而皆准的方法是不够的——您需要专为AI构建的基础设施。我们与我们的合作伙伴一起,为ML用例提供广泛的计算选项,例如大型语言模型(LLM)、生成AI和扩散模型。最近,我们发布了G2VMs,成为第一个提供新的NVIDIAL4TensorCoreGPU用于服务生成式AI工作负载的云。今天,我们通过推出下一代A3GPU超级计算机的私人预览版来扩展该产品组合。GoogleCloud现在提供一整套GPU选项,用于训练和推理ML模型。GoogleComputeEngineA3超级计算机专为训练和服务要求最严苛的AI模型而打造,这些模型为当今的生成式AI和大型语言模型创新提供动力。我们的A3VM结合了NVIDIAH100TensorCoreGPU和Google领先的网络技术,可为各种规模的客户提供服务:1.A3是第一个使用我们定制设计的200GbpsIPU的GPU实例,GPU到GPU的数据传输绕过CPU主机并流过与其他VM网络和数据流量不同的接口。与我们的A2VM相比,这可实现高达10倍的网络带宽,同时具有低尾延迟和高带宽稳定性。2.我们行业独一无二的智能Jupiter数据中心网络结构可扩展到数万个高度互连的GPU,并允许全带宽可重新配置的光学链路,可以按需调整拓扑。对于几乎每种工作负载结构,我们实现的工作负载带宽与更昂贵的现成非阻塞网络结构没有区别,从而降低了TCO。3.A3超级计算机的规模提供高达26exaFlops的AI性能,这大大减少了训练大型ML模型的时间和成本。随着公司从训练过渡到提供ML模型,A3VM也非常适合推理工作负载,与...PC版:https://www.cnbeta.com.tw/articles/soft/1359089.htm手机版:https://m.cnbeta.com.tw/view/1359089.htm

封面图片

谷歌配备 Nvidia H100 GPU 的新型 A3 GPU 超级计算机将于下个月全面上市

谷歌配备NvidiaH100GPU的新型A3GPU超级计算机将于下个月全面上市尽管价格超过30,000美元,Nvidia的H100GPU仍然是一种热门商品,以至于通常会出现缺货的情况。今年早些时候,谷歌云宣布推出其H100支持的A3GPU虚拟机的私人预览版,该虚拟机将Nvidia的芯片与谷歌定制设计的200Gpbs基础设施处理单元(IPU)结合在一起。现在,在CloudNext会议上,谷歌宣布将于下个月全面推出A3。去年发布A3时,谷歌云表示它将提供高达26exaflops的AI性能,并且部分得益于定制IPU,与上一代A2机器相比,网络带宽提高了10倍。投稿:@ZaiHuaBot频道:@TestFlightCN

封面图片

【比特币矿企Iris Energy斥资1000万美元购买NVIDIA H100 GPU】

【比特币矿企IrisEnergy斥资1000万美元购买NVIDIAH100GPU】2023年08月29日08点20分8月29日消息,比特币矿企IrisEnergy宣布首次购买248个NVIDIAH100GPU,花费约1000万美元,预计将在未来几个月内交付。IrisEnergy表示,将进一步评估其下一代数据中心是否适合为生成人工智能等邻近计算市场提供服务,其核心业务仍然是比特币挖矿。

封面图片

【io.net:已将300个NVIDIA H100 GPU整合到基础设施网络中】

【io.net:已将300个NVIDIAH100GPU整合到基础设施网络中】2024年05月14日01点07分老不正经报道,io.net宣布已将来自Aethir的超过300个NVIDIAH100GPU整合到其基础设施网络中。Aethir和io.net将在5月底之前共计部署1,000个H100GPU,是Web3竞争对手所有可用H100GPU数量的3倍,显著提升的计算能力可处理更复杂和需求更高的计算任务。io.net与Aethir于4月达成战略合作,双方将利用由64万个GPU和CPU组成的网络,实现人工智能基础设施的民主化和去中心化,使超级计算能力更具经济性、更易访问。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人