NVIDIA发布AI超算DGX GH200：144TB内存、1.8万核CPU

NVIDIA发布AI超算DGXGH200：144TB内存、1.8万核CPUAI运算对内存容量的要求更高，所以DGXGH200通过最新的NVLink、NVLinkSwitch等技术连接了256块GraceHooper超级芯片，实现了极为夸张的性能及内存。GraceHooper我们之前报道过，这是一块CPU+GPU合体的超级芯片，CPU是NVIDIA自研的72核处理器，NeoverseV2内核，拥有480GBLPDDR5内存，512GB/s带宽。GPU部分是H100，FP64性能34TFLOPS，但更强的是INT8性能，AI运算能力达到了3958TFLOPS，带96GBHBM3内存。GH200总计有256块GraceHooper芯片，因此总计18432个CPU核心，144TBHBM3内存，AI性能达到了1exaFLOPS，也就是100亿亿次。这是什么概念，当前最强的TOP500超算也就是百亿亿次性能，只不过这个性能是HPC计算的，NVIDIA的是百亿亿次AI性能。为了让256个超级芯片互联，GH200还使用了256块单口400Gb/sInfiniBand互联芯片，256个双口200Gb/sInfiniBand芯片，还有96组L1NVLink、36组L2NVLink开关等等，设计非常复杂。NVIDIA表示，谷歌、Meta及微软是首批获得DGXH200系统的公司，后续他们还会开放给更多客户，运行客户定制。不过DGXH200还不是最强的，NVIDIA今年晚些时候会推出名为NVIDIAHelios的AI超算系统，由4组GH200组成，总计1024个GraceHooper超级芯片，576TBHBM内存。...PC版：https://www.cnbeta.com.tw/articles/soft/1362277.htm手机版：https://m.cnbeta.com.tw/view/1362277.htm

在Telegram中查看

相关推荐

NVIDIA CPU+GPU超级芯片终于量产搭配144TB内存

NVIDIACPU+GPU超级芯片终于量产搭配144TB内存再加上GraceCPU、HopperGPU、AdaLovelaceGPU、BlueFieldDPU等全套系统方案，NVIDIA现在已经有400多种配置，可满足市场对生成式AI的激增需求。欧洲和美国的超大规模云服务商、超算中心，将会成为接入GH200系统的首批客户。同时，黄仁勋还公布了GraceHopper的更多细节，尤其是它的CPU、GPU之间使用NVLink-C2C互连技术，总带宽高达900GB/s，相比传统的PCIe5.0通道超出足足7倍，能够满足要求最苛刻的生成式AI和HPC应用，功耗也降低了超过80％。GraceCPU拥有72个Armv9CPU核心，缓存容量198MB，支持LPDDR5XECC内存，带宽高达1TB/s，还支持PCIe5.0。HopperGPU则采用台积电4nm定制工艺，集成多达800亿个晶体管，号称世界上最先进的芯片，集成18432个CUDA核心、576个Tenor核心、60MB二级缓存，支持6144-bitHBM3/2e高带宽内存。同时，NVIDIA宣布推出一款新型大内存AI超级计算机“DGXGH200”，可用于开发面向生成式AI语言应用、推荐系统和数据分析工作负载的下一代大模型。它配备了多达256颗GH200GraceHopper超级芯片，彼此NVLinkSwitchSystem互相连接，带宽提升48倍以上，对外可作为单个GPU使用，浮点性能高达1PFlops(每秒1千万亿次浮点计算)。同时还有144TB共享内存，相比2020年的上一代DGXA100增大了近500倍。...PC版：https://www.cnbeta.com.tw/articles/soft/1362341.htm手机版：https://m.cnbeta.com.tw/view/1362341.htm

谷歌、Meta、微软将是新一代AI显卡 NVIDIA GH200 的首批用户

谷歌、Meta、微软将是新一代AI显卡NVIDIAGH200的首批用户在COMPUTEX2023上，专为AI打造的 DGXGH200超级计算机，通过NVLink互连技术使256个GH200超级芯片可以作为单个GPU执行，这提供了1exaflop的性能和144TB的共享内存。可量产的DGXGH200与500强超算第一名的Frontier相比只落后0.1exaflop算力，与2020年发布的DGXA100相比多了近500倍内存。GH200超级芯片通过使用NVLink-C2C技术将基于Arm的GraceCPU与H100GPU组合在同一封装，从而消除了对传统CPU到GPUPCIe连接的需求。与最新的PCIe技术相比，这将GPU和CPU之间的带宽提高了7倍，将互连功耗降低了5倍以上，并为单卡提供了600GB内存。——频道：@TestFlightCN

八路并联1.1TB HBM3e高带宽内存 NVIDIA奉上全新HGX H200加速器

八路并联1.1TBHBM3e高带宽内存NVIDIA奉上全新HGXH200加速器对比H100，容量增加了76％，带宽增加了43％，而对比上代A100，更是容量几乎翻番，带宽增加2.4倍。得益于NVLink、NVSwitch高速互连技术，H200还可以四路、八路并联，因此单系统的HBM3e内存容量能做到最多1128GB，也就是1.1TB。只是相比于AMDInstinctMI300X还差点意思，后者搭载了192GBHBM3，带宽高达5.2TB/s。性能方面，H200再一次实现了飞跃，700亿参数的Llama2大语言模型推理性能比H100提高了多达90％，1750亿参数的GTP-3模型推理性能也提高了60％，而对比前代A100HPC模拟性能直接翻番。八路H200系统下，FP8深度学习计算性能可以超过32PFlops，也就是每秒3.2亿亿次浮点计算，堪比一台大型超级计算机。随着未来软件的持续升级，H200还有望继续释放潜力，实现更大的性能优势。此外，H200还可以与采用超高速NVLink-C2C互连技术的NVIDIAGraceCPU处理器搭配使用，就组成了GH200GraceHopper超级芯片，专为大型HPC、AI应用而设计的计算模块。NVIDIAH200将从2024年第二季度开始通过全球系统制造商、云服务提供商提供。...PC版：https://www.cnbeta.com.tw/articles/soft/1396823.htm手机版：https://m.cnbeta.com.tw/view/1396823.htm

英国将打造Isambard-AI超算：5448个GH200 Grace Hopper芯片组成

英国将打造Isambard-AI超算：5448个GH200GraceHopper芯片组成Isambard-AI超算系统基于HPECrayEX架构构建，拥有近25PB的存储空间，使用CrayClusterstorE1000和HPESlingshot11互连。在散热设计上，Isambard-AI超算系统将使用先进的液冷散热技术和热再利用模型，除了为芯片散热，还能为当地建筑物供暖。性能方面，超级计算机采用的是NVIDIA最新发布的顶尖数据中心产品GH200GraceHopperSuperchips，由Hopper架构GPU和Arm架构GraceCPU相结合，使用了NVLink-C2C，将两者连接起来。该芯片拥有72个Armv9架构CPU内核，GPU方面与H100计算卡一致，即16896个FP32CUDA核心，配备了HBM3e。研究人员表示，Isambard-AI超算系统计划在2024年晚些时候投入使用，提供超过21ExaFLOPS的人工智能推理和训练工作负载，将成为开放科学领域最强大的人工智能系统之一。相关文章:英特尔、戴尔和剑桥大学宣布部署“黎明”超级计算机第一期...PC版：https://www.cnbeta.com.tw/articles/soft/1393917.htm手机版：https://m.cnbeta.com.tw/view/1393917.htm

1.8万核心GPU、144核心CPU NVIDIA大杀器将揭开面纱

1.8万核心GPU、144核心CPUNVIDIA大杀器将揭开面纱HotChips年度芯片行业盛会将在本月底举行，Intel、AMD、NVIDIA和众多业内芯片巨头都将拿出各家的拳头产品，秀秀肌肉。NVIDIA这次会有多场分享，重点覆盖HopperGPU计算加速器、GraceCPU服务器处理器、NVLink高速总线，届时会有多位高级工程师分享内部架构设计、性能数据。HopperGPU采用定制版台积电4nm工艺、全新架构，集成多达800亿个晶体管、18432个CUDA核心、576个Tensor核心，支持6144-bit位宽的80GBHBM3/HBM2e高带宽内存，并支持PCIe5.0、第四代NVLIink，性能号称四倍于上代A100，功耗最高700W。GraceCPU采用双芯合体设计，攻击144个Arm架构核心，集成396MB缓存，支持LPDDR5XECC内存，带宽达1TB/s，同样支持PCIe5.0，功耗500W。NVIDIA还打造了一颗超级芯片，HopperGPU、GraceCPU二合一，通过NVLink-C2C高速总线互连，带宽达900GB/s。PC版：https://www.cnbeta.com/articles/soft/1306753.htm手机版：https://m.cnbeta.com/view/1306753.htm

碾压H100！英伟达GH200超级芯片首秀性能跃升17%

碾压H100！英伟达GH200超级芯片首秀性能跃升17%而这，这也是英伟达GH200测试成绩的首次亮相！相比于单张H100配合英特尔CPU，GH200的GraceCPU+H100GPU的组合，在各个项目上都有15%左右的提升。英伟达GH200超级芯片首秀毫无疑问，英伟达的GPU在MLPerfInference3.1基准测试中表现是最亮眼的。其中，最新发布的GH200GraceHopper超级芯片，也是首次在MLPerfInference3.1上亮相。GraceHopper超级芯片将英伟达的GraceCPU与H100GPU集成在一起，通过超高的带宽连接，从而比单个H100配合其他的CPU能提供更强的性能表现。“GraceHopper首次展示了非常强劲的性能，与我们的H100GPU提交相比，性能提高了17%，我们已经全面领先，”英伟达人工智能总监DaveSalvator在新闻发布会上表示。性能大幅增长具体来说，它将一个H100GPU和GraceCPU集成在一起，通过900GB/s的NVLink-C2C连接。而CPU和GPU分别配备了480GB的LPDDR5X内存和96GB的HBM3或者144GB的HBM3e的内存，集成了高达576GB以上的高速访问内存。英伟达GH200GraceHopper超级芯片专为计算密集型工作负载而设计，能够满足各种严苛的要求和各项功能。比如训练和运行数万亿参数的大型Transformer模型，或者是运行具有数TB大小的嵌入表的推荐系统和向量数据库。GH200GraceHopper超级芯片还在MLPerfInference测试中有着非常优异的表现，刷新了英伟达单个H100SXM在每个项目中创下的最佳成绩。NVIDIAGraceHopperMLPerfInference数据中心性能与DGXH100SXM的对比结果，每个数值都是GH200的性能领先幅度GH200GraceHopper超级芯片集成了96GB的HBM3，并提供高达4TB/s的HBM3内存带宽，而H100SXM分别为80GB和3.35TB/s。与H100SXM相比，更大的内存容量和更大的内存带宽使得在NVIDIAGH200GraceHopper超级芯片上使用更大的批处理大小来处理工作负载。例如，在服务器场景中，RetinaNet和DLRMv2的批处理大小都增加了一倍，在离线场景中，批处理大小增加了50%。GH200GraceHopper超级芯片在HopperGPU和GraceCPU之间的高带宽NVLink-C2C连接可以实现CPU和GPU之间的快速通信，从而有助于提高性能。例如，在MLPerfDLRMv2中，在H100SXM上通过PCIe传输一批张量（Tensor）大约需要22%的批处理推理时间。使用了NVLink-C2C的GH200GraceHopper超级芯片仅使用3%的推理时间就完成了相同的传输。由于具有更高的内存带宽和更大的内存容量，与MLPerfInferencev3.1的H100GPU相比，GraceHopper超级芯片的单芯片性能优势高达17%。推理和训练全面领先在MLPerf的首秀中，GH200GraceHopperSuperchip在封闭类别（ClosedDivision）的所有工作负载和场景上都表现出卓越的性能。而在主流的服务器应用中，L4GPU能够提供一个低功耗，紧凑型的算力解决方案，与CPU解决方案相比的性能也有了大幅的提升。Salvator表示，“与测试中最好的x86CPU相比，L4的性能也非常强劲，提高了6倍”。对于其他的AI应用和机器人应用，JetsonAGXOrin和JetsonOrinNX模块实现了出色的性能。未来的软件优化有助于进一步释放强大的英伟达OrinSoC在这些模块中的潜力。在目前非常流行的目标检测AI网络——RetinaNet上，英伟达的产品的性能提高了高达84%。英伟达开放部分（OpenDivision）的结果，展示了通过模型优化可以在保持极高精度的同时大幅提高推理性能的潜力。全新MLPerf3.1基准测试当然，这并不是MLCommons第一次尝试对大语言模型的性能进行基准测试。早在今年6月，MLPerfv3.0就首次加入了LLM训练的基准测试。不过，LLM的训练和推理任务，区别很大。推理工作负载对计算要求高，而且种类繁多，这就要求平台能够快速处理各种类型的数据预测，并能在各种AI模型上进行推理。对于希望部署AI系统的企业来说，需要一种方法来客观评估基础设施在各种工作负载、环境和部署场景中的性能。所以对于训练和推理的基准测试都是很重要的。MLPerfInferencev3.1包括了两项重要更新，来更好地反映现在AI实际的使用情况：首先，增加了基于GPT-J的大型语言模型(LLM)推理的测试。GPT-J是一个开源的6B参数LLM，对CNN/每日邮报数据集进行文本总结。除了GPT-J之外，这次还更新了DLRM测试。针对MLPerfTrainingv3.0中引入的DLRM，采用了新的模型架构和更大的数据集，更好地反映了推荐系统的规模和复杂性。MLCommons创始人兼执行董事DavidKanter表示，训练基准侧重于更大规模的基础模型，而推理基准执行的实际任务，则代表了更广泛的用例，大部分组织都可以进行部署。在这方面，为了能够对各种推理平台和用例进行有代表性的测试，MLPerf定义了四种不同的场景。每个基准都由数据集和质量目标定义。每个基准都需要以下场景：在MLPerfv3.1基准测试中，有超过13,500个结果，其中不少提交者的性能比3.0基准提高了20%，甚至更多。其他提交者包括华硕，Azure，cTuning，ConnectTech，戴尔，富士通，GigaComputing，Google，H3C，HPE，IEI，英特尔，IntelHabanaLabs，Krai，联想，墨芯，NeuralMagic，Nutanix，甲骨文，高通，QuantaCloudTechnology，SiMA，Supermicro，TTA和xFusion等。...PC版：https://www.cnbeta.com.tw/articles/soft/1383343.htm手机版：https://m.cnbeta.com.tw/view/1383343.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人