英伟达H100霸榜权威AI性能测试11分钟搞定基于GPT-3的大模型训练============赢http://www.nbd.com.cn/articles/2023-06-28/2889886.html

None

相关推荐

封面图片

英伟达H100霸榜权威AI性能测试 11分钟搞定基于GPT-3的大模型训练

英伟达H100霸榜权威AI性能测试11分钟搞定基于GPT-3的大模型训练(来源:英伟达、MLCommons)MLPerf是由学术界、实验室和产业组成的人工智能领袖联盟,是目前国际公认的权威AI性能评测基准。Trainingv3.0包含8种不同的负载,包括视觉(影像分类、生物医学影像分割、两种负载的物体侦测)、语言(语音识别、大语言模型、自然语言处理)和推荐系统。简单来说,就是由不同的设备供应商提交完成基准任务所需要的时间。(Trainingv3.0训练基准,来源:MLCommons)在投资者比较关注的“大语言模型”训练测试中,英伟达和GPU云算力平台CoreWeave提交的数据为这项测试设定了残酷的业界标准。在896个英特尔至强8462Y+处理器和3584个英伟达H100芯片的齐心协力下,仅仅花了10.94分钟就完成了基于GPT-3的大语言模型训练任务。除了英伟达外,只有英特尔的产品组合在这个项目上获得评测数据。由96个至强8380处理器和96个HabanaGaudi2AI芯片构建的系统中,完成同样测试的时间为311.94分钟。横向对比,使用768个H100芯片的平台跑完这个测试也只需要45.6分钟。(芯片越多数据越好看,来源:英伟达)对于这个结果,英特尔也表示仍有上升空间。理论上只要堆更多的芯片,运算的结果自然会更快。英特尔AI产品高级主管JordanPlawner对媒体表示,接下来Habana的运算结果将会呈现1.5倍-2倍的提升。Plawner拒绝透露HabanaGaudi2的具体售价,仅表示业界需要第二家厂商提供AI训练芯片,而MLPerf的数据显示英特尔有能力填补这个需求。而在中国投资者更熟悉的BERT-Large模型训练中,英伟达和CoreWeave将数据刷到了极端的0.13分钟,在64卡的情况下,测试数据也达到了0.89分钟。BERT模型中的Transformer结构正是目前主流大模型的基础架构。...PC版:https://www.cnbeta.com.tw/articles/soft/1367739.htm手机版:https://m.cnbeta.com.tw/view/1367739.htm

封面图片

基于OpenAIAPI(GPT-3)的Bob翻译插件#插件

封面图片

老黄赢麻了:英伟达H100订单排到24年

老黄赢麻了:英伟达H100订单排到24年全球最大云厂商亚马逊AWS也证实了这一消息,CEOAdamSelipsky近期表示:A100和H100是最先进的……即使对于AWS来说也很难获得。更早时候,马斯克还在一场访谈节目中也说过:GPU现在比d品还难获得。如果找“黄牛”买,溢价高达25%。如Ebay上的价格已从出厂价约36000美元涨到了45000美元,而且货源稀少。这种形势下,国内的百度、字节、阿里、腾讯等大型科技公司也向英伟达下了总计50亿美元的A800等芯片订单。其中只有10亿美元的货能今年内交付,另外80%也要等2024年才行。那么现有高端GPU都卖给谁了?这一波产能又是卡在了哪?H100卖给谁,老黄说了算ChatGPT爆发以来,擅长训练大模型的英伟达A100、H100成了香饽饽。甚至H100已经可以作为初创公司的一种资产,找投资基金获得抵押贷款。OpenAI、Meta为代表的AI公司,亚马逊、微软为代表的云计算公司,私有云Coreweave和Lambda,以及所有想炼自家大模型的各类科技公司,需求量都巨大。然而卖给谁,基本是英伟达CEO黄仁勋说了算。据TheInformation消息,H100这么紧缺,英伟达把大量的新卡分配给了CoreWeave,对亚马逊微软等老牌云计算公司限量供应。(英伟达还直接投资了CoreWeave。)外界分析是因为这些老牌公司都在开发自己的AI加速芯片、希望减少对英伟达的依赖,那老黄也就成全他们。老黄在英伟达内部还把控了公司日常运营的方方面面,甚至包括“审查销售代表准备对小型潜在客户说什么话”。全公司约40名高管直接向老黄汇报,这比Meta小扎和微软小纳的直接下属加起来还多。一位英伟达前经理透露,“在英伟达,黄仁勋实际上是每一款产品的首席产品官。”前阵子,还传出老黄干了一件夸张的事:要求一些小型云计算公司提供他们的客户名单,想了解GPU的最终使用者是谁。外界分析,此举将使英伟达更了解客户对其产品的需求,也引起了对英伟达可能利用这些信息谋取额外利益的担忧。也有人认为,还有一层原因是老黄想知道谁真的在用卡,而谁只是囤卡不用。为什么英伟达和老黄现在有这么大的话语权?主要是高端GPU供需太不平衡,根据GPUUtils网站的测算,H100缺口高达43万张。作者ClayPascal根据各种已知信息和传言估计了AI行业各参与者近期还需要的H100数量。AI公司方面:OpenAI可能需要5万张H100来训练GPT-5Meta据说需要10万InflectionAI的2.2万张卡算力集群计划已公布主要AI初创公司如Anthropic、Character.ai、欧洲的MistraAI和HelsingAI需求各自在1万数量级。云计算公司方面:大型公有云里,亚马逊、微软、Google、甲骨文都按3万算,共12万以CoreWeave和Lambda为代表的私有云加起来总共需要10万加起来就是43.2万了。这还没算一些摩根大通、TwoSigma等也开始部署自己算力集群的金融公司和其他行业参与者。那么问题来了,这么大的供应缺口,就不能多生产点吗?老黄也想啊,但是产能被卡住了。产能这次卡在哪里?其实,台积电已经为英伟达调整过一次生产计划了。不过还是没能填补上如此巨大的缺口。英伟达DGX系统副总裁兼总经理CharlieBoyle称,这次并不是卡在晶圆,而是台积电的CoWoS封装技术产能遇到了瓶颈。与英伟达抢台积电产能的正是苹果,要在9月发布会之前搞定下一代iPhone要用的A17芯片。而台积电方面近期表示,预计需要1.5年才能使封装工艺积压恢复正常。CoWoS封装技术是台积电的看家本领,台积电之所以能击败三星成为苹果的独家芯片代工厂靠的就是它。这项技术封装出的产品性能高、可靠性强,H100能拥有3TB/s(甚至更高)的带宽正是得益于此。CoWoS全名叫Chip-on-Wafer-on-Substrate,是一种在晶圆层面上的芯片集成技术。这项技术可以将多个芯片封装到厚度仅有100μm的硅中介层上。据介绍,下一代中介层面积将达到6倍reticle,也就是约5000mm?。目前为止,除了台积电,没有哪家厂商拥有这个水平的封装能力。虽然CoWoS的确强悍,但没有它就不行吗?其他厂商能不能代工呢?先不说老黄已经表示过“不考虑新增第二家H100代工厂”。从现实上看,可能也真的不行。英伟达此前曾和三星有过合作,但后者从未给英伟达生产过H100系列产品,甚至其他5nm制程的芯片。据此有人推测,三星的技术水平可能无法满足英伟达对尖端GPU的工艺需求。至于英特尔……他们的5nm产品好像还迟迟没有问世。既然让老黄换生产厂家行不通,那用户直接改用AMD怎么样?AMD,Yes?如果单论性能的话,AMD倒的确是慢慢追上来了。AMD最新推出的MI300X,拥有192GB的HBM3内存、5.2TB/s的带宽,可运行800亿参数模型。而英伟达刚刚发布的DGXGH200,内存为141GB的HBM3e,带宽则为5TB/s。但这并不意味着AMD能马上填补N卡的空缺——英伟达真正的“护城河”,在于CUDA平台。CUDA已经建立起一套完整的开发生态,意味着用户要是购买AMD产品,需要更长时间来进行调试。一名某私有云公司的高管表示,没人敢冒险花3亿美元实验部署10000个AMDGPU。这名高管认为,开发调试的周期可能至少需要两个月。在AI产品飞速更新换代的大背景下,两个月的空档期对任何一家厂商来说可能都是致命的。不过微软倒是向AMD伸出了橄榄枝。此前有传闻称,微软准备和AMD共同开发代号为“雅典娜”的AI芯片。而更早之前,MI200发布时,微软第一个宣布采购,并在其云平台Azure上部署。比如前一阵MSRA的新大模型基础架构RetNet就是在512张AMDMI200上训练的。在英伟达占据几乎整个AI市场的格局下,可能需要有人带头冲锋,先整个大型AMD算力集群打样,才有人敢于跟进。不过短时间内,英伟达H100、A100还是最主流的选择。OneMoreThing前一阵苹果发布最高支持192GB内存新款M2Ultra芯片的时候,还有不少从业者畅享过用它来微调大模型。毕竟苹果M系列芯片的内存显存是统一的,192GB内存就是192GB显存,可是80GBH100的2.4倍,又或者24GBRTX4090的8倍。然鹅,有人真的把这台机器买到手后,实际测试训练速度还不如英伟达RTX3080TI,微调都不划算,训练就更别想了。毕竟M系列芯片的算力部分不是专门针对AI计算优化的,光大显存也没用。炼大模型,看来主要还是得靠H100,而H100又求之不得。面对这种情况,网络上甚至流传着一首魔性的“GPU之歌”。很洗脑,慎入。...PC版:https://www.cnbeta.com.tw/articles/soft/1376535.htm手机版:https://m.cnbeta.com.tw/view/1376535.htm

封面图片

碾压H100!英伟达GH200超级芯片首秀 性能跃升17%

碾压H100!英伟达GH200超级芯片首秀性能跃升17%而这,这也是英伟达GH200测试成绩的首次亮相!相比于单张H100配合英特尔CPU,GH200的GraceCPU+H100GPU的组合,在各个项目上都有15%左右的提升。英伟达GH200超级芯片首秀毫无疑问,英伟达的GPU在MLPerfInference3.1基准测试中表现是最亮眼的。其中,最新发布的GH200GraceHopper超级芯片,也是首次在MLPerfInference3.1上亮相。GraceHopper超级芯片将英伟达的GraceCPU与H100GPU集成在一起,通过超高的带宽连接,从而比单个H100配合其他的CPU能提供更强的性能表现。“GraceHopper首次展示了非常强劲的性能,与我们的H100GPU提交相比,性能提高了17%,我们已经全面领先,”英伟达人工智能总监DaveSalvator在新闻发布会上表示。性能大幅增长具体来说,它将一个H100GPU和GraceCPU集成在一起,通过900GB/s的NVLink-C2C连接。而CPU和GPU分别配备了480GB的LPDDR5X内存和96GB的HBM3或者144GB的HBM3e的内存,集成了高达576GB以上的高速访问内存。英伟达GH200GraceHopper超级芯片专为计算密集型工作负载而设计,能够满足各种严苛的要求和各项功能。比如训练和运行数万亿参数的大型Transformer模型,或者是运行具有数TB大小的嵌入表的推荐系统和向量数据库。GH200GraceHopper超级芯片还在MLPerfInference测试中有着非常优异的表现,刷新了英伟达单个H100SXM在每个项目中创下的最佳成绩。NVIDIAGraceHopperMLPerfInference数据中心性能与DGXH100SXM的对比结果,每个数值都是GH200的性能领先幅度GH200GraceHopper超级芯片集成了96GB的HBM3,并提供高达4TB/s的HBM3内存带宽,而H100SXM分别为80GB和3.35TB/s。与H100SXM相比,更大的内存容量和更大的内存带宽使得在NVIDIAGH200GraceHopper超级芯片上使用更大的批处理大小来处理工作负载。例如,在服务器场景中,RetinaNet和DLRMv2的批处理大小都增加了一倍,在离线场景中,批处理大小增加了50%。GH200GraceHopper超级芯片在HopperGPU和GraceCPU之间的高带宽NVLink-C2C连接可以实现CPU和GPU之间的快速通信,从而有助于提高性能。例如,在MLPerfDLRMv2中,在H100SXM上通过PCIe传输一批张量(Tensor)大约需要22%的批处理推理时间。使用了NVLink-C2C的GH200GraceHopper超级芯片仅使用3%的推理时间就完成了相同的传输。由于具有更高的内存带宽和更大的内存容量,与MLPerfInferencev3.1的H100GPU相比,GraceHopper超级芯片的单芯片性能优势高达17%。推理和训练全面领先在MLPerf的首秀中,GH200GraceHopperSuperchip在封闭类别(ClosedDivision)的所有工作负载和场景上都表现出卓越的性能。而在主流的服务器应用中,L4GPU能够提供一个低功耗,紧凑型的算力解决方案,与CPU解决方案相比的性能也有了大幅的提升。Salvator表示,“与测试中最好的x86CPU相比,L4的性能也非常强劲,提高了6倍”。对于其他的AI应用和机器人应用,JetsonAGXOrin和JetsonOrinNX模块实现了出色的性能。未来的软件优化有助于进一步释放强大的英伟达OrinSoC在这些模块中的潜力。在目前非常流行的目标检测AI网络——RetinaNet上,英伟达的产品的性能提高了高达84%。英伟达开放部分(OpenDivision)的结果,展示了通过模型优化可以在保持极高精度的同时大幅提高推理性能的潜力。全新MLPerf3.1基准测试当然,这并不是MLCommons第一次尝试对大语言模型的性能进行基准测试。早在今年6月,MLPerfv3.0就首次加入了LLM训练的基准测试。不过,LLM的训练和推理任务,区别很大。推理工作负载对计算要求高,而且种类繁多,这就要求平台能够快速处理各种类型的数据预测,并能在各种AI模型上进行推理。对于希望部署AI系统的企业来说,需要一种方法来客观评估基础设施在各种工作负载、环境和部署场景中的性能。所以对于训练和推理的基准测试都是很重要的。MLPerfInferencev3.1包括了两项重要更新,来更好地反映现在AI实际的使用情况:首先,增加了基于GPT-J的大型语言模型(LLM)推理的测试。GPT-J是一个开源的6B参数LLM,对CNN/每日邮报数据集进行文本总结。除了GPT-J之外,这次还更新了DLRM测试。针对MLPerfTrainingv3.0中引入的DLRM,采用了新的模型架构和更大的数据集,更好地反映了推荐系统的规模和复杂性。MLCommons创始人兼执行董事DavidKanter表示,训练基准侧重于更大规模的基础模型,而推理基准执行的实际任务,则代表了更广泛的用例,大部分组织都可以进行部署。在这方面,为了能够对各种推理平台和用例进行有代表性的测试,MLPerf定义了四种不同的场景。每个基准都由数据集和质量目标定义。每个基准都需要以下场景:在MLPerfv3.1基准测试中,有超过13,500个结果,其中不少提交者的性能比3.0基准提高了20%,甚至更多。其他提交者包括华硕,Azure,cTuning,ConnectTech,戴尔,富士通,GigaComputing,Google,H3C,HPE,IEI,英特尔,IntelHabanaLabs,Krai,联想,墨芯,NeuralMagic,Nutanix,甲骨文,高通,QuantaCloudTechnology,SiMA,Supermicro,TTA和xFusion等。...PC版:https://www.cnbeta.com.tw/articles/soft/1383343.htm手机版:https://m.cnbeta.com.tw/view/1383343.htm

封面图片

英特尔推出性能超越英伟达 H100 的 Gaudi 3 AI 加速芯片

英特尔推出性能超越英伟达H100的Gaudi3AI加速芯片英特尔Vision2024大会的第二天,英特尔正式推出了Gaudi3加速芯片。Gaudi3使用台积电5nm工艺制造,热设计功耗为900W,FP8精度下的峰值性能为1835TFLOPS。英特尔称Gaudi3在16个芯片组成的加速集群中以FP8精度训练Llama2-13B时比性能H100高出1.7倍。同时,英特尔预计Gaudi3的推理性能将比H200/H100提高1.3倍到1.5倍,能效比将高2.3倍。英特尔已经向客户提供了样片,并将在第三季度正式批量交付。——

封面图片

AMD 正式发布 MI300 加速器,性能较英伟达 H100 芯片提高 60%

AMD正式发布MI300加速器,性能较英伟达H100芯片提高60%在美国加州圣何塞举行的AI特别活动中,AMD宣布正式推出其旗舰AIGPU加速器MI300X,并称其性能比英伟达的H100芯片提高了60%。据AMD介绍,新芯片为性能最高的芯片,拥有超过1500亿个晶体管。与英伟达H100芯片相比,AMD新芯片的内存为其2.4倍,内存带宽为其1.6倍,训练性能与H100芯片相当,在运行AI模型方面则比英伟达快得多。——、

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人