英伟达H100霸榜权威AI性能测试 11分钟搞定基于GPT-3的大模型训练

英伟达H100霸榜权威AI性能测试11分钟搞定基于GPT-3的大模型训练（来源：英伟达、MLCommons）MLPerf是由学术界、实验室和产业组成的人工智能领袖联盟，是目前国际公认的权威AI性能评测基准。Trainingv3.0包含8种不同的负载，包括视觉（影像分类、生物医学影像分割、两种负载的物体侦测）、语言（语音识别、大语言模型、自然语言处理）和推荐系统。简单来说，就是由不同的设备供应商提交完成基准任务所需要的时间。（Trainingv3.0训练基准，来源：MLCommons）在投资者比较关注的“大语言模型”训练测试中，英伟达和GPU云算力平台CoreWeave提交的数据为这项测试设定了残酷的业界标准。在896个英特尔至强8462Y+处理器和3584个英伟达H100芯片的齐心协力下，仅仅花了10.94分钟就完成了基于GPT-3的大语言模型训练任务。除了英伟达外，只有英特尔的产品组合在这个项目上获得评测数据。由96个至强8380处理器和96个HabanaGaudi2AI芯片构建的系统中，完成同样测试的时间为311.94分钟。横向对比，使用768个H100芯片的平台跑完这个测试也只需要45.6分钟。（芯片越多数据越好看，来源：英伟达）对于这个结果，英特尔也表示仍有上升空间。理论上只要堆更多的芯片，运算的结果自然会更快。英特尔AI产品高级主管JordanPlawner对媒体表示，接下来Habana的运算结果将会呈现1.5倍-2倍的提升。Plawner拒绝透露HabanaGaudi2的具体售价，仅表示业界需要第二家厂商提供AI训练芯片，而MLPerf的数据显示英特尔有能力填补这个需求。而在中国投资者更熟悉的BERT-Large模型训练中，英伟达和CoreWeave将数据刷到了极端的0.13分钟，在64卡的情况下，测试数据也达到了0.89分钟。BERT模型中的Transformer结构正是目前主流大模型的基础架构。...PC版：https://www.cnbeta.com.tw/articles/soft/1367739.htm手机版：https://m.cnbeta.com.tw/view/1367739.htm

在Telegram中查看

相关推荐

英伟达H100霸榜权威AI性能测试11分钟搞定基于GPT-3的大模型训练============赢http://www.nbd.com.cn/articles/2023-06-28/2889886.html

英特尔推出性能超越英伟达 H100 的 Gaudi 3 AI 加速芯片

英特尔推出性能超越英伟达H100的Gaudi3AI加速芯片英特尔Vision2024大会的第二天，英特尔正式推出了Gaudi3加速芯片。Gaudi3使用台积电5nm工艺制造，热设计功耗为900W，FP8精度下的峰值性能为1835TFLOPS。英特尔称Gaudi3在16个芯片组成的加速集群中以FP8精度训练Llama2-13B时比性能H100高出1.7倍。同时，英特尔预计Gaudi3的推理性能将比H200/H100提高1.3倍到1.5倍，能效比将高2.3倍。英特尔已经向客户提供了样片，并将在第三季度正式批量交付。——

碾压H100！英伟达GH200超级芯片首秀性能跃升17%

碾压H100！英伟达GH200超级芯片首秀性能跃升17%而这，这也是英伟达GH200测试成绩的首次亮相！相比于单张H100配合英特尔CPU，GH200的GraceCPU+H100GPU的组合，在各个项目上都有15%左右的提升。英伟达GH200超级芯片首秀毫无疑问，英伟达的GPU在MLPerfInference3.1基准测试中表现是最亮眼的。其中，最新发布的GH200GraceHopper超级芯片，也是首次在MLPerfInference3.1上亮相。GraceHopper超级芯片将英伟达的GraceCPU与H100GPU集成在一起，通过超高的带宽连接，从而比单个H100配合其他的CPU能提供更强的性能表现。“GraceHopper首次展示了非常强劲的性能，与我们的H100GPU提交相比，性能提高了17%，我们已经全面领先，”英伟达人工智能总监DaveSalvator在新闻发布会上表示。性能大幅增长具体来说，它将一个H100GPU和GraceCPU集成在一起，通过900GB/s的NVLink-C2C连接。而CPU和GPU分别配备了480GB的LPDDR5X内存和96GB的HBM3或者144GB的HBM3e的内存，集成了高达576GB以上的高速访问内存。英伟达GH200GraceHopper超级芯片专为计算密集型工作负载而设计，能够满足各种严苛的要求和各项功能。比如训练和运行数万亿参数的大型Transformer模型，或者是运行具有数TB大小的嵌入表的推荐系统和向量数据库。GH200GraceHopper超级芯片还在MLPerfInference测试中有着非常优异的表现，刷新了英伟达单个H100SXM在每个项目中创下的最佳成绩。NVIDIAGraceHopperMLPerfInference数据中心性能与DGXH100SXM的对比结果，每个数值都是GH200的性能领先幅度GH200GraceHopper超级芯片集成了96GB的HBM3，并提供高达4TB/s的HBM3内存带宽，而H100SXM分别为80GB和3.35TB/s。与H100SXM相比，更大的内存容量和更大的内存带宽使得在NVIDIAGH200GraceHopper超级芯片上使用更大的批处理大小来处理工作负载。例如，在服务器场景中，RetinaNet和DLRMv2的批处理大小都增加了一倍，在离线场景中，批处理大小增加了50%。GH200GraceHopper超级芯片在HopperGPU和GraceCPU之间的高带宽NVLink-C2C连接可以实现CPU和GPU之间的快速通信，从而有助于提高性能。例如，在MLPerfDLRMv2中，在H100SXM上通过PCIe传输一批张量（Tensor）大约需要22%的批处理推理时间。使用了NVLink-C2C的GH200GraceHopper超级芯片仅使用3%的推理时间就完成了相同的传输。由于具有更高的内存带宽和更大的内存容量，与MLPerfInferencev3.1的H100GPU相比，GraceHopper超级芯片的单芯片性能优势高达17%。推理和训练全面领先在MLPerf的首秀中，GH200GraceHopperSuperchip在封闭类别（ClosedDivision）的所有工作负载和场景上都表现出卓越的性能。而在主流的服务器应用中，L4GPU能够提供一个低功耗，紧凑型的算力解决方案，与CPU解决方案相比的性能也有了大幅的提升。Salvator表示，“与测试中最好的x86CPU相比，L4的性能也非常强劲，提高了6倍”。对于其他的AI应用和机器人应用，JetsonAGXOrin和JetsonOrinNX模块实现了出色的性能。未来的软件优化有助于进一步释放强大的英伟达OrinSoC在这些模块中的潜力。在目前非常流行的目标检测AI网络——RetinaNet上，英伟达的产品的性能提高了高达84%。英伟达开放部分（OpenDivision）的结果，展示了通过模型优化可以在保持极高精度的同时大幅提高推理性能的潜力。全新MLPerf3.1基准测试当然，这并不是MLCommons第一次尝试对大语言模型的性能进行基准测试。早在今年6月，MLPerfv3.0就首次加入了LLM训练的基准测试。不过，LLM的训练和推理任务，区别很大。推理工作负载对计算要求高，而且种类繁多，这就要求平台能够快速处理各种类型的数据预测，并能在各种AI模型上进行推理。对于希望部署AI系统的企业来说，需要一种方法来客观评估基础设施在各种工作负载、环境和部署场景中的性能。所以对于训练和推理的基准测试都是很重要的。MLPerfInferencev3.1包括了两项重要更新，来更好地反映现在AI实际的使用情况：首先，增加了基于GPT-J的大型语言模型(LLM)推理的测试。GPT-J是一个开源的6B参数LLM，对CNN/每日邮报数据集进行文本总结。除了GPT-J之外，这次还更新了DLRM测试。针对MLPerfTrainingv3.0中引入的DLRM，采用了新的模型架构和更大的数据集，更好地反映了推荐系统的规模和复杂性。MLCommons创始人兼执行董事DavidKanter表示，训练基准侧重于更大规模的基础模型，而推理基准执行的实际任务，则代表了更广泛的用例，大部分组织都可以进行部署。在这方面，为了能够对各种推理平台和用例进行有代表性的测试，MLPerf定义了四种不同的场景。每个基准都由数据集和质量目标定义。每个基准都需要以下场景：在MLPerfv3.1基准测试中，有超过13,500个结果，其中不少提交者的性能比3.0基准提高了20%，甚至更多。其他提交者包括华硕，Azure，cTuning，ConnectTech，戴尔，富士通，GigaComputing，Google，H3C，HPE，IEI，英特尔，IntelHabanaLabs，Krai，联想，墨芯，NeuralMagic，Nutanix，甲骨文，高通，QuantaCloudTechnology，SiMA，Supermicro，TTA和xFusion等。...PC版：https://www.cnbeta.com.tw/articles/soft/1383343.htm手机版：https://m.cnbeta.com.tw/view/1383343.htm

英伟达跌超 2% 创近一个月新低，英特尔称推出超英伟达 H100 的 AI 芯片

英伟达跌超2%创近一个月新低，英特尔称推出超英伟达H100的AI芯片英伟达(NVDA.US)美股盘中一度跌逾4%，最终收跌2.04%报853.54美元，创近一个月新低，成交427.1亿美元。消息上，英特尔推出升级款人工智能(AI)芯片Gaudi3，将于三季度大范围供应。这款芯片用于提升“帮助训练AI系统”和“运行软件成品”这两大关键领域的性能，前者包括用数据“轰炸”AI系统。此外，英特尔称该芯片性能超过英伟达H100。

每个集群都包含了 24576 块英伟达 H100 AI GPU，将用于自家大语言模型 Llama 3 的训练

Meta新建两座数据中心集群：内含超4.9万块英伟达H100GPU，专门训练Llama3https://www.ithome.com/0/755/447.htm据悉，这两座数据中心的唯一目的，是在消费者特定应用领域（IT之家注：包含声音或图像识别）中进行AI研究和大语言模型的开发，每个集群都包含了24576块英伟达H100AIGPU，将用于自家大语言模型Llama3的训练。

【英伟达开源Nemotron-4340B系列模型，用于训练LLM】近日，英伟达开源Nemotron-4340B（3400亿参数）

【英伟达开源Nemotron-4340B系列模型，用于训练LLM】近日，英伟达开源Nemotron-4340B（3400亿参数）系列模型。开发人员可使用该系列模型生成合成数据，用于训练大型语言模型(LLM)，用于医疗保健、金融、制造、零售和其他行业的商业应用。Nemotron-4340B包括基础模型Base、指令模型Instruct和奖励模型Reward。英伟达使用了9万亿个token（文本单位）进行训练。Nemotron-4340B-Base在常识推理任务，如ARC-c、MMLU和BBH基准测试中，可以和Llama-370B、Mixtral8x22B和Qwen-272B模型媲美。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人