英伟达发布新一代数据中心超级芯片

英伟达发布新一代数据中心超级芯片在周二的主题演讲中，黄仁勋介绍了下一代DGXGH200GraceHopper超级芯片，专为OpenAI的ChatGPT等大内存生成性人工智能模型设计，以扩展全球的数据中心。在发布会前的新闻发布会上，英伟达的超大规模和高性能计算部门主管IanBuck告诉记者，GH200比该公司的H100数据中心系统容纳了更多的内存和更大的带宽。GH200采用了英伟达的HopperGPU架构，并将其与ArmLtd.的GraceCPU架构结合起来。该芯片拥有141GB的HBM3内存，以及每秒5TB的带宽。GH200可以在NVLink的双GH200系统中叠加使用，使内存增加3.5倍，带宽增加两倍。这两种产品都将在2024年第二季度上市，但英伟达没有透露定价。——

在Telegram中查看

相关推荐

英伟达发布新一代 AI 芯片 H200

英伟达发布新一代AI芯片H200H200利用了美光等公司推出的HBM3e内存，提供了141GB内存容量(H100的1.8倍)和4.8TB/s内存带宽(H100的1.4倍)。大型语言模型推理速度方面，GPT-3175B是H100的1.6倍(A100的18倍)，LLaMA270B是H100的1.9倍。英伟达同时宣布2024年的H100产量翻倍，2024年第4季度发布基于新一代Blackwell架构的B100。投稿：@ZaiHuaBot频道：@TestFlightCN

英伟达发布下一代人工智能超级计算机芯片，将在深度学习和大型语言模型方面发挥重要作用。新芯片基于Hopper架构，使用HBM3e内

英伟达发布下一代人工智能超级计算机芯片，将在深度学习和大型语言模型方面发挥重要作用。新芯片基于Hopper架构，使用HBM3e内存，提供更大容量和更快速度。发布的关键产品是HGXH200GPU，推理速度比上一代快一倍。另一个关键产品是GH200GraceHopper超级芯片，结合了HGXH200GPU和基于Arm的GraceCPU。GH200将用于全球研究中心、系统制造商和云提供商的AI超级计算机。英伟达希望新的GPU和超级芯片能够帮助其继续增长。

Arm推出新一代数据中心芯片技术Neoverse V2

Arm推出新一代数据中心芯片技术NeoverseV2据报道，5G数据和联网设备出现爆发式增长，为了应对需求，Arm公司宣布推出下一代数据中心芯片技术，名叫NeoverseV2。Arm开发技术，形成知识产权，然后授权给其它企业使用。现在大多手机都用到了Arm技术，除此之外它还在向数据中心市场挺进，以前该市场一直被AMD、英特尔统治。PC版：https://www.cnbeta.com/articles/soft/1316323.htm手机版：https://m.cnbeta.com/view/1316323.htm

碾压H100！英伟达GH200超级芯片首秀性能跃升17%

碾压H100！英伟达GH200超级芯片首秀性能跃升17%而这，这也是英伟达GH200测试成绩的首次亮相！相比于单张H100配合英特尔CPU，GH200的GraceCPU+H100GPU的组合，在各个项目上都有15%左右的提升。英伟达GH200超级芯片首秀毫无疑问，英伟达的GPU在MLPerfInference3.1基准测试中表现是最亮眼的。其中，最新发布的GH200GraceHopper超级芯片，也是首次在MLPerfInference3.1上亮相。GraceHopper超级芯片将英伟达的GraceCPU与H100GPU集成在一起，通过超高的带宽连接，从而比单个H100配合其他的CPU能提供更强的性能表现。“GraceHopper首次展示了非常强劲的性能，与我们的H100GPU提交相比，性能提高了17%，我们已经全面领先，”英伟达人工智能总监DaveSalvator在新闻发布会上表示。性能大幅增长具体来说，它将一个H100GPU和GraceCPU集成在一起，通过900GB/s的NVLink-C2C连接。而CPU和GPU分别配备了480GB的LPDDR5X内存和96GB的HBM3或者144GB的HBM3e的内存，集成了高达576GB以上的高速访问内存。英伟达GH200GraceHopper超级芯片专为计算密集型工作负载而设计，能够满足各种严苛的要求和各项功能。比如训练和运行数万亿参数的大型Transformer模型，或者是运行具有数TB大小的嵌入表的推荐系统和向量数据库。GH200GraceHopper超级芯片还在MLPerfInference测试中有着非常优异的表现，刷新了英伟达单个H100SXM在每个项目中创下的最佳成绩。NVIDIAGraceHopperMLPerfInference数据中心性能与DGXH100SXM的对比结果，每个数值都是GH200的性能领先幅度GH200GraceHopper超级芯片集成了96GB的HBM3，并提供高达4TB/s的HBM3内存带宽，而H100SXM分别为80GB和3.35TB/s。与H100SXM相比，更大的内存容量和更大的内存带宽使得在NVIDIAGH200GraceHopper超级芯片上使用更大的批处理大小来处理工作负载。例如，在服务器场景中，RetinaNet和DLRMv2的批处理大小都增加了一倍，在离线场景中，批处理大小增加了50%。GH200GraceHopper超级芯片在HopperGPU和GraceCPU之间的高带宽NVLink-C2C连接可以实现CPU和GPU之间的快速通信，从而有助于提高性能。例如，在MLPerfDLRMv2中，在H100SXM上通过PCIe传输一批张量（Tensor）大约需要22%的批处理推理时间。使用了NVLink-C2C的GH200GraceHopper超级芯片仅使用3%的推理时间就完成了相同的传输。由于具有更高的内存带宽和更大的内存容量，与MLPerfInferencev3.1的H100GPU相比，GraceHopper超级芯片的单芯片性能优势高达17%。推理和训练全面领先在MLPerf的首秀中，GH200GraceHopperSuperchip在封闭类别（ClosedDivision）的所有工作负载和场景上都表现出卓越的性能。而在主流的服务器应用中，L4GPU能够提供一个低功耗，紧凑型的算力解决方案，与CPU解决方案相比的性能也有了大幅的提升。Salvator表示，“与测试中最好的x86CPU相比，L4的性能也非常强劲，提高了6倍”。对于其他的AI应用和机器人应用，JetsonAGXOrin和JetsonOrinNX模块实现了出色的性能。未来的软件优化有助于进一步释放强大的英伟达OrinSoC在这些模块中的潜力。在目前非常流行的目标检测AI网络——RetinaNet上，英伟达的产品的性能提高了高达84%。英伟达开放部分（OpenDivision）的结果，展示了通过模型优化可以在保持极高精度的同时大幅提高推理性能的潜力。全新MLPerf3.1基准测试当然，这并不是MLCommons第一次尝试对大语言模型的性能进行基准测试。早在今年6月，MLPerfv3.0就首次加入了LLM训练的基准测试。不过，LLM的训练和推理任务，区别很大。推理工作负载对计算要求高，而且种类繁多，这就要求平台能够快速处理各种类型的数据预测，并能在各种AI模型上进行推理。对于希望部署AI系统的企业来说，需要一种方法来客观评估基础设施在各种工作负载、环境和部署场景中的性能。所以对于训练和推理的基准测试都是很重要的。MLPerfInferencev3.1包括了两项重要更新，来更好地反映现在AI实际的使用情况：首先，增加了基于GPT-J的大型语言模型(LLM)推理的测试。GPT-J是一个开源的6B参数LLM，对CNN/每日邮报数据集进行文本总结。除了GPT-J之外，这次还更新了DLRM测试。针对MLPerfTrainingv3.0中引入的DLRM，采用了新的模型架构和更大的数据集，更好地反映了推荐系统的规模和复杂性。MLCommons创始人兼执行董事DavidKanter表示，训练基准侧重于更大规模的基础模型，而推理基准执行的实际任务，则代表了更广泛的用例，大部分组织都可以进行部署。在这方面，为了能够对各种推理平台和用例进行有代表性的测试，MLPerf定义了四种不同的场景。每个基准都由数据集和质量目标定义。每个基准都需要以下场景：在MLPerfv3.1基准测试中，有超过13,500个结果，其中不少提交者的性能比3.0基准提高了20%，甚至更多。其他提交者包括华硕，Azure，cTuning，ConnectTech，戴尔，富士通，GigaComputing，Google，H3C，HPE，IEI，英特尔，IntelHabanaLabs，Krai，联想，墨芯，NeuralMagic，Nutanix，甲骨文，高通，QuantaCloudTechnology，SiMA，Supermicro，TTA和xFusion等。...PC版：https://www.cnbeta.com.tw/articles/soft/1383343.htm手机版：https://m.cnbeta.com.tw/view/1383343.htm

谷歌推出基于 Arm 的数据中心处理器 Axion 和下一代 TPU 芯片

谷歌推出基于Arm的数据中心处理器Axion和下一代TPU芯片谷歌9日在其年度云计算会议上公布了其下一代数据中心AI加速芯片TPU的细节，并宣布推出自行设计的基于ARM架构的数据中心CPU。谷歌的张量处理单元(TPU)是英伟达制造的先进AI芯片的少数可行替代品之一，但开发人员只能通过谷歌云访问它们，而不能直接购买。谷歌表示，下一代TPUv5p芯片可在8,960个芯片的芯片集群中运行，原始性能可达到上一代TPU的两倍。为了确保芯片组以最佳性能运行，谷歌采用了液体冷却技术。TPUv5p将于9日在谷歌云正式发布。谷歌计划通过谷歌云提供被称为Axion的基于ARM的CPU。Axion芯片的性能比通用ARM芯片高出30%，比英特尔和AMD生产的当前一代x86芯片高出50%。Axion已在多项谷歌服务中使用，并计划于今年晚些时候向公众开放。——

英伟达发布下一代AI计算芯片 HGX H200 GPU

英伟达发布下一代AI计算芯片HGXH200GPUNVIDIA今天宣布推出NVIDIAHGX™H200，为全球领先的AI计算平台带来强大动力。该平台基于NVIDIAHopper™架构，配备NVIDIAH200TensorCoreGPU和高级内存，可处理生成AI和高性能计算工作负载的海量数据。NVIDIAH200是首款提供HBM3e的GPU，HBM3e是更快、更大的内存，可加速生成式AI和大型语言模型，同时推进HPC工作负载的科学计算。借助HBM3e，NVIDIAH200以每秒4.8TB的速度提供141GB内存，与前一代NVIDIAA100相比，容量几乎翻倍，带宽增加2.4倍。全球领先的服务器制造商和云服务提供商采用H200的系统预计将于2024年第二季度开始发货。——

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人