碾压H100!英伟达GH200超级芯片首秀 性能跃升17%

碾压H100!英伟达GH200超级芯片首秀性能跃升17%而这,这也是英伟达GH200测试成绩的首次亮相!相比于单张H100配合英特尔CPU,GH200的GraceCPU+H100GPU的组合,在各个项目上都有15%左右的提升。英伟达GH200超级芯片首秀毫无疑问,英伟达的GPU在MLPerfInference3.1基准测试中表现是最亮眼的。其中,最新发布的GH200GraceHopper超级芯片,也是首次在MLPerfInference3.1上亮相。GraceHopper超级芯片将英伟达的GraceCPU与H100GPU集成在一起,通过超高的带宽连接,从而比单个H100配合其他的CPU能提供更强的性能表现。“GraceHopper首次展示了非常强劲的性能,与我们的H100GPU提交相比,性能提高了17%,我们已经全面领先,”英伟达人工智能总监DaveSalvator在新闻发布会上表示。性能大幅增长具体来说,它将一个H100GPU和GraceCPU集成在一起,通过900GB/s的NVLink-C2C连接。而CPU和GPU分别配备了480GB的LPDDR5X内存和96GB的HBM3或者144GB的HBM3e的内存,集成了高达576GB以上的高速访问内存。英伟达GH200GraceHopper超级芯片专为计算密集型工作负载而设计,能够满足各种严苛的要求和各项功能。比如训练和运行数万亿参数的大型Transformer模型,或者是运行具有数TB大小的嵌入表的推荐系统和向量数据库。GH200GraceHopper超级芯片还在MLPerfInference测试中有着非常优异的表现,刷新了英伟达单个H100SXM在每个项目中创下的最佳成绩。NVIDIAGraceHopperMLPerfInference数据中心性能与DGXH100SXM的对比结果,每个数值都是GH200的性能领先幅度GH200GraceHopper超级芯片集成了96GB的HBM3,并提供高达4TB/s的HBM3内存带宽,而H100SXM分别为80GB和3.35TB/s。与H100SXM相比,更大的内存容量和更大的内存带宽使得在NVIDIAGH200GraceHopper超级芯片上使用更大的批处理大小来处理工作负载。例如,在服务器场景中,RetinaNet和DLRMv2的批处理大小都增加了一倍,在离线场景中,批处理大小增加了50%。GH200GraceHopper超级芯片在HopperGPU和GraceCPU之间的高带宽NVLink-C2C连接可以实现CPU和GPU之间的快速通信,从而有助于提高性能。例如,在MLPerfDLRMv2中,在H100SXM上通过PCIe传输一批张量(Tensor)大约需要22%的批处理推理时间。使用了NVLink-C2C的GH200GraceHopper超级芯片仅使用3%的推理时间就完成了相同的传输。由于具有更高的内存带宽和更大的内存容量,与MLPerfInferencev3.1的H100GPU相比,GraceHopper超级芯片的单芯片性能优势高达17%。推理和训练全面领先在MLPerf的首秀中,GH200GraceHopperSuperchip在封闭类别(ClosedDivision)的所有工作负载和场景上都表现出卓越的性能。而在主流的服务器应用中,L4GPU能够提供一个低功耗,紧凑型的算力解决方案,与CPU解决方案相比的性能也有了大幅的提升。Salvator表示,“与测试中最好的x86CPU相比,L4的性能也非常强劲,提高了6倍”。对于其他的AI应用和机器人应用,JetsonAGXOrin和JetsonOrinNX模块实现了出色的性能。未来的软件优化有助于进一步释放强大的英伟达OrinSoC在这些模块中的潜力。在目前非常流行的目标检测AI网络——RetinaNet上,英伟达的产品的性能提高了高达84%。英伟达开放部分(OpenDivision)的结果,展示了通过模型优化可以在保持极高精度的同时大幅提高推理性能的潜力。全新MLPerf3.1基准测试当然,这并不是MLCommons第一次尝试对大语言模型的性能进行基准测试。早在今年6月,MLPerfv3.0就首次加入了LLM训练的基准测试。不过,LLM的训练和推理任务,区别很大。推理工作负载对计算要求高,而且种类繁多,这就要求平台能够快速处理各种类型的数据预测,并能在各种AI模型上进行推理。对于希望部署AI系统的企业来说,需要一种方法来客观评估基础设施在各种工作负载、环境和部署场景中的性能。所以对于训练和推理的基准测试都是很重要的。MLPerfInferencev3.1包括了两项重要更新,来更好地反映现在AI实际的使用情况:首先,增加了基于GPT-J的大型语言模型(LLM)推理的测试。GPT-J是一个开源的6B参数LLM,对CNN/每日邮报数据集进行文本总结。除了GPT-J之外,这次还更新了DLRM测试。针对MLPerfTrainingv3.0中引入的DLRM,采用了新的模型架构和更大的数据集,更好地反映了推荐系统的规模和复杂性。MLCommons创始人兼执行董事DavidKanter表示,训练基准侧重于更大规模的基础模型,而推理基准执行的实际任务,则代表了更广泛的用例,大部分组织都可以进行部署。在这方面,为了能够对各种推理平台和用例进行有代表性的测试,MLPerf定义了四种不同的场景。每个基准都由数据集和质量目标定义。每个基准都需要以下场景:在MLPerfv3.1基准测试中,有超过13,500个结果,其中不少提交者的性能比3.0基准提高了20%,甚至更多。其他提交者包括华硕,Azure,cTuning,ConnectTech,戴尔,富士通,GigaComputing,Google,H3C,HPE,IEI,英特尔,IntelHabanaLabs,Krai,联想,墨芯,NeuralMagic,Nutanix,甲骨文,高通,QuantaCloudTechnology,SiMA,Supermicro,TTA和xFusion等。...PC版:https://www.cnbeta.com.tw/articles/soft/1383343.htm手机版:https://m.cnbeta.com.tw/view/1383343.htm

相关推荐

封面图片

AMD 正式发布 MI300 加速器,性能较英伟达 H100 芯片提高 60%

AMD正式发布MI300加速器,性能较英伟达H100芯片提高60%在美国加州圣何塞举行的AI特别活动中,AMD宣布正式推出其旗舰AIGPU加速器MI300X,并称其性能比英伟达的H100芯片提高了60%。据AMD介绍,新芯片为性能最高的芯片,拥有超过1500亿个晶体管。与英伟达H100芯片相比,AMD新芯片的内存为其2.4倍,内存带宽为其1.6倍,训练性能与H100芯片相当,在运行AI模型方面则比英伟达快得多。——、

封面图片

英特尔推出性能超越英伟达 H100 的 Gaudi 3 AI 加速芯片

英特尔推出性能超越英伟达H100的Gaudi3AI加速芯片英特尔Vision2024大会的第二天,英特尔正式推出了Gaudi3加速芯片。Gaudi3使用台积电5nm工艺制造,热设计功耗为900W,FP8精度下的峰值性能为1835TFLOPS。英特尔称Gaudi3在16个芯片组成的加速集群中以FP8精度训练Llama2-13B时比性能H100高出1.7倍。同时,英特尔预计Gaudi3的推理性能将比H200/H100提高1.3倍到1.5倍,能效比将高2.3倍。英特尔已经向客户提供了样片,并将在第三季度正式批量交付。——

封面图片

全球首块英伟达H200 AI超级芯片交付 黄仁勋给OpenAI“送货上门”

全球首块英伟达H200AI超级芯片交付黄仁勋给OpenAI“送货上门”H200基于英伟达Hopper架构打造,并配备英伟达H200TensorCoreGPU,处理速度为4.8TB/秒。H200拥有141GB的内存,与前代产品H100相比,H200的容量几乎翻了一番,运行大模型的综合性能相比前代H100提升了60%到90%。英伟达此前表示,H200在运行GPT-3时的性能,将比原始A100高出18倍,同时也比H100快11倍左右。值得一提的是,H200还将与H100兼容,使用H100训练/推理模型的AI企业,可以无缝更换成最新的H200芯片。...PC版:https://www.cnbeta.com.tw/articles/soft/1428557.htm手机版:https://m.cnbeta.com.tw/view/1428557.htm

封面图片

英伟达计划提高2024年H100 产量至少两倍 需先克服产能瓶颈

英伟达计划提高2024年H100产量至少两倍需先克服产能瓶颈英伟达CUDA架构专为AI和HPC工作负载订制,因此有数百种应用程式只能在英伟达运算GPU运行。虽然亚马逊和Google都有订制AI处理器,AI训练和推理用,但仍必须购买大量英伟达GPU。然而,想增加英伟达H100、GH200GraceHopper及基础产品供应并不容易,英伟达想增加GH100产能,必须先摆脱几个瓶颈。首先,GH100很难大量生产。虽然现在产品产量已相当高,但仍需从台积电取得大量4N晶圆供应,才能让GH100产量提高两倍以上。若要制造200万颗芯片,需3.1万片晶圆,台积电5纳米晶圆总产能每月约15万片,且产能还须由英伟达、AMD、苹果等共享。再来,GH100依赖HBM2E或HBM3记忆体,并使用台积电CoWoS封装,英伟达也需确保供应正常,台积电也在努力满足CoWoS封装需求;第三,基于H100设备使用HBM2E、HBM3或HBM3E存储器,英伟达必须从美光、三星和SK海力士等公司购入足够HBM存储器。最后是英伟达H100显卡或SXM模组必须安装在某个地方,英伟达必须确保合作伙伴的AI服务器也有两到三倍输出。如果英伟达能满足全部H100GPU需求,明年营收会相当可观。...PC版:https://www.cnbeta.com.tw/articles/soft/1379565.htm手机版:https://m.cnbeta.com.tw/view/1379565.htm

封面图片

老黄深夜炸场:世界最强AI芯片H200震撼发布 性能飙升90%

老黄深夜炸场:世界最强AI芯片H200震撼发布性能飙升90%全世界的AI公司都陷入算力荒,英伟达的GPU已经千金难求。英伟达此前也表示,两年一发布的架构节奏将转变为一年一发布。就在英伟达宣布这一消息之际,AI公司们正为寻找更多H100而焦头烂额。英伟达的高端芯片价值连城,已经成为贷款的抵押品。谁拥有H100,是硅谷最引人注目的顶级八卦至于H200系统,英伟达表示预计将于明年二季度上市。同在明年,英伟达还会发布基于Blackwell架构的B100,并计划在2024年将H100的产量增加两倍,目标是生产200多万块H100。而在发布会上,英伟达甚至全程没有提任何竞争对手,只是不断强调“英伟达的AI超级计算平台,能够更快地解决世界上一些最重要的挑战。”随着生成式AI的大爆炸,需求只会更大,而且,这还没算上H200呢。赢麻了,老黄真的赢麻了!141GB超大显存,性能直接翻倍!H200,将为全球领先的AI计算平台增添动力。它基于Hopper架构,配备英伟达H200TensorCoreGPU和先进的显存,因此可以为生成式AI和高性能计算工作负载处理海量数据。英伟达H200是首款采用HBM3e的GPU,拥有高达141GB的显存。与A100相比,H200的容量几乎翻了一番,带宽也增加了2.4倍。与H100相比,H200的带宽则从3.35TB/s增加到了4.8TB/s。英伟达大规模与高性能计算副总裁IanBuck表示——要利用生成式人工智能和高性能计算应用创造智能,必须使用大型、快速的GPU显存,来高速高效地处理海量数据。借助H200,业界领先的端到端人工智能超算平台的速度会变得更快,一些世界上最重要的挑战,都可以被解决。Llama2推理速度提升近100%跟前代架构相比,Hopper架构已经实现了前所未有的性能飞跃,而H100持续的升级,和TensorRT-LLM强大的开源库,都在不断提高性能标准。H200的发布,让性能飞跃又升了一级,直接让Llama270B模型的推理速度比H100提高近一倍!H200基于与H100相同的Hopper架构。这就意味着,除了新的显存功能外,H200还具有与H100相同的功能,例如TransformerEngine,它可以加速基于Transformer架构的LLM和其他深度学习模型。HGXH200采用英伟达NVLink和NVSwitch高速互连技术,8路HGXH200可提供超过32Petaflops的FP8深度学习计算能力和1.1TB的超高显存带宽。当用H200代替H100,与英伟达GraceCPU搭配使用时,就组成了性能更加强劲的GH200GraceHopper超级芯片——专为大型HPC和AI应用而设计的计算模块。下面我们就来具体看看,相较于H100,H200的性能提升到底体现在哪些地方。首先,H200的性能提升最主要体现在大模型的推理性能表现上。如上所说,在处理Llama2等大语言模型时,H200的推理速度比H100提高了接近1倍。因为计算核心更新幅度不大,如果以训练175B大小的GPT-3为例,性能提升大概在10%左右。显存带宽对于高性能计算(HPC)应用程序至关重要,因为它可以实现更快的数据传输,减少复杂任务的处理瓶颈。对于模拟、科学研究和人工智能等显存密集型HPC应用,H200更高的显存带宽可确保高效地访问和操作数据,与CPU相比,获得结果的时间最多可加快110倍。相较于H100,H200在处理高性能计算的应用程序上也有20%以上的提升。而对于用户来说非常重要的推理能耗,H200相比H100直接腰斩。这样,H200能大幅降低用户的使用成本,继续让用户“买的越多,省的越多”!上个月,外媒SemiAnalysis曾曝出一份英伟达未来几年的硬件路线图,包括万众瞩目的H200、B100和“X100”GPU。而英伟达官方,也公布了官方的产品路线图,将使用同一构架设计三款芯片,在明年和后年会继续推出B100和X100。B100,性能已经望不到头了这次,英伟达更是在官方公告中宣布了全新的H200和B100,将过去数据中心芯片两年一更新的速率直接翻倍。以推理1750亿参数的GPT-3为例,今年刚发布的H100是前代A100性能的11倍,明年即将上市的H200相对于H100则有超过60%的提升,而再之后的B100,性能更是望不到头。至此,H100也成为了目前在位最短的“旗舰级”GPU。如果说H100现在就是科技行业的“黄金”,那么英伟达又成功制造了“铂金”和“钻石”。H200加持,新一代AI超算中心大批来袭云服务方面,除了英伟达自己投资的CoreWeave、Lambda和Vultr之外,亚马逊云科技、Google云、微软Azure和甲骨文云基础设施,都将成为首批部署基于H200实例的供应商。此外,在新的H200加持之下,GH200超级芯片也将为全球各地的超级计算中心提供总计约200Exaflops的AI算力,用以推动科学创新。在SC23大会上,多家顶级超算中心纷纷宣布,即将使用GH200系统构建自己的超级计算机。德国尤里希超级计算中心将在超算JUPITER中使用GH200超级芯片。这台超级计算机将成为欧洲第一台超大规模超级计算机,是欧洲高性能计算联合项目(EuroHPCJointUndertaking)的一部分。Jupiter超级计算机基于Eviden的BullSequanaXH3000,采用全液冷架构。它总共拥有24000个英伟达GH200GraceHopper超级芯片,通过Quantum-2Infiniband互联。每个GraceCPU包含288个Neoverse内核,Jupiter的CPU就有近700万个ARM核心。它能提供93Exaflops的低精度AI算力和1Exaflop的高精度(FP64)算力。这台超级计算机预计将于2024年安装完毕。由筑波大学和东京大学共同成立的日本先进高性能计算联合中心,将在下一代超级计算机中采用英伟达GH200GraceHopper超级芯片构建。作为世界最大超算中心之一的德克萨斯高级计算中心,也将采用英伟达的GH200构建超级计算机Vista。伊利诺伊大学香槟分校的美国国家超级计算应用中心,将利用英伟达GH200超级芯片来构建他们的超算DeltaAI,把AI计算能力提高两倍。此外,布里斯托大学将在英国政府的资助下,负责建造英国最强大的超级计算机Isambard-AI——将配备5000多颗英伟达GH200超级芯片,提供21Exaflops的AI计算能力。英伟达、AMD、英特尔:三巨头决战AI芯片GPU竞赛,也进入了白热化。面对H200,而老对手AMD的计划是,利用即将推出的大杀器——InstinctMI300X来提升显存性能。MI300X将配备192GB的HBM3和5.2TB/s的显存带宽,这将使其在容量和带宽上远超H200。而英特尔也摩拳擦掌,计划提升GaudiAI芯片的HBM容量,并表示明年推出的第三代GaudiAI芯片将从上一代的96GBHBM2e增加到144GB。英特尔Max系列目前的HBM2容量最高为128GB,英特尔计划在未来几代产品中,还要增加Max系列芯片的容量。H200价格未知所以,H200卖多少钱?英伟达暂时还未公布。要知道,一块H100的售价,在25000美元到40000美元之间。训练AI模型,至少需要数千块。此前,AI社区曾广为流传这张图片《我们需要多少个GPU》。GPT-4大约是在10000-25000块A100上训练的;Meta需要大约21000块A100;StabilityAI用了大概5000块A100;Falcon-40B的训练,用了384块A100。根据马斯克的说法,GPT-5可能需要30000-50000块H100。摩根士丹利的说法是25000个GPU。SamAltman否认了在训练GPT-5,但却提过“OpenAI的GPU严重短缺,使用我们产品的人越少越好”。我们能知道的是,等到明年第二季度H200上市,届时必将引发新的风暴。...PC版:https://www.cnbeta.com.tw/articles/soft/1396699.htm手机版:https://m.cnbeta.com.tw/view/1396699.htm

封面图片

英伟达 H100 (Hopper ) 首次亮相 MLPerf,测试结果刷新纪录

英伟达H100(Hopper)首次亮相MLPerf,测试结果刷新纪录北京时间9月9日,MLCommons社区发布了最新的MLPerf2.1基准测试结果,新一轮基准测试拥有近5300个性能结果和2400个功耗测量结果,分别比上一轮提升了1.37倍和1.09倍,MLPerf的适用范围进一步扩大。阿里巴巴、华硕、Azure、壁仞科技、戴尔、富士通、技嘉、H3C、HPE、浪潮、英特尔、Krai、联想、Moffett、Nettrix、NeuralMagic、英伟达、OctoML、高通、SAPEON和Supermicro均是本轮测试的贡献者。其中,英伟达表现依然亮眼,首次携H100(又名Hopper)参加MLPerf测试,并在所有工作负载中刷新世界纪录。这些测试结果表明,对于那些需要在高级AI模型上获得最高性能的用户来说,Hopper是最优选择。此外,NVIDIAA100TensorCoreGPU和用于AI机器人的NVIDIAJetsonAGXOrin模块在所有MLPerf测试中继续表现出整体领先的推理性能,包括图像和语音识别自然语言处理和推荐系统。前文:来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人