NVIDIA H100计算卡强势垄断AI:性能暴涨4.5倍 对手不存在的

NVIDIAH100计算卡强势垄断AI:性能暴涨4.5倍对手不存在的HopperH100早在2022年3月就发布了,GH100GPU核心,台积电4nm工艺,800亿晶体管,814平方毫米面积。它集成18432个CUDA核心、576个Tensor核心、60MB二级缓存,搭配6144-bit位宽的六颗HBM3/HBM2e高带宽内存,支持第四代NVLink、PCIe5.0总线。相比于ChatGPT等目前普遍使用的A100,H100的理论性能提升了足足6倍。不过直到最近,H100才开始大规模量产,微软、谷歌、甲骨文等云计算服务已开始批量部署。MLPerfInference是测试AI推理性能的行业通行标准,最新版本v3.0,也是这个工具诞生以来的第七个大版本更新。对比半年前的2.1版本,NVIDIAH100的性能在不同测试项目中提升了7-54%不等,其中进步最大的是RetinaNet全卷积神经网络测试,3DU-Net医疗成像网络测试也能提升31%。对比A100,跨代提升更是惊人,无延迟离线测试的变化幅度少则1.8倍,多则可达4.5倍,延迟服务器测试少则超过1.7倍,多则也能接近4倍。其中,DLRM、BERT训练模型的提升最为显著。NVIDIA还颇为羞辱性地列上了Intel最新数据中心处理器旗舰至强铂金8480+的成绩,虽然有56个核心,但毕竟术业有专攻,让通用处理器跑AI训练实在有点为难,可怜的分数不值一提,BERT99.9%甚至都无法运行,而这正是NVIDIAH100的最强项。此外,NVIDIA还第一次公布了L4GPU的性能。它基于最新的Ada架构,只有Tensor张量核心,支持FP8浮点计算,主要用于AI推理,也支持AI视频编码加速。对比上代T4,L4的性能可加速2.2-3.1倍之多,最关键的是它功耗只有72W,再加上单槽半高造型设计,可谓小巧彪悍。几乎所有的大型云服务供应商都部署了T4,升级到L4只是时间问题,Google就已经开始内测。...PC版:https://www.cnbeta.com.tw/articles/soft/1353335.htm手机版:https://m.cnbeta.com.tw/view/1353335.htm

相关推荐

封面图片

Inflection AI宣布打造2.2万块H100计算卡的AI超级计算机

InflectionAI宣布打造2.2万块H100计算卡的AI超级计算机一家名为"InflectionAI"的人工智能创业公司近日宣布,他们计划利用2.2万块NVIDIAH100计算卡打造一台规模宏大的AI超级计算机。这台超级计算机将由近700个机柜组成,每个机柜还将配备四块Intel至强处理器,旨在提供卓越的计算能力。据悉,该系统的功耗预计将达到31兆瓦,相当于每小时消耗3.1万度电。InflectionAI此次计划打造的AI超级计算机被视为世界顶级之一,而能够轻松获取大量NVIDIAH100计算卡的原因在于,NVIDIA正准备对该公司进行投资。来源,来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

封面图片

60亿参数AI模型测试:Intel 2.4倍领先 唯一可替代NVIDIA

60亿参数AI模型测试:Intel2.4倍领先唯一可替代NVIDIA此前6月份披露的MLCommonsAI训练结果、HuggingFace性能基准测试成绩表明,IntelGaudi2AI加速器在先进的视觉语言模型上,表现完全可以超越NVIDIAH100股加速器,堪称可唯一替代NVIDIAH100/A100的可行方案,最新结果再次验证了这一点。GPT-J模型上,IntelGaudi2加速器的GPT-J-99、GPT-J-99.9服务器查询和离线样本的推理性能分别为78.58次/秒、84.08次/秒。对比竞品,H100相较于Gaudi2只有1.09倍(服务器)、1.28倍(离线)的性能领先优势,Gaudi2对比A100的优势则可达2.4倍(服务器)、2倍(离线)的性能。值得一提的是,Gaudi2提交的结果采用FP8数据类型,准确率达到99.9%。Gaudi2软件每6-8周就会更新一次,将继续提升MLPerf基准测试性能,并扩大模型覆盖范围。同时,Intel提交了基于SapphireRapids第四代至强可扩展处理器的7个推理基准测试,其中就包括GPT-J模型。结果显示,包括视觉、语言处理、语音和音频翻译模型,以及更大的DLRMv2深度学习推荐模型、ChatGPT-J模型在内,四代至强在处理通用AI负载时性能非常出色。截至目前,Intel仍是唯一一家使用行业标准的深度学习生态系统软件提交公开CPU结果的厂商。根据最新结果,使用GPT-J对大约1000-1500字新闻稿进行100字总结的任务,四代至强在离线模式下每秒完成两段,实时服务器模式下则可完成每秒一段。此外,Intel首次提交了至强CPUMax处理器的MLPerf测试结果,其集成最多64GBHBM3高带宽内存,对于GPT-J而言是唯一能够达到99.9%准确度的CPU,非常适合精度要求极高的应用。...PC版:https://www.cnbeta.com.tw/articles/soft/1383413.htm手机版:https://m.cnbeta.com.tw/view/1383413.htm

封面图片

NVIDIA 4nm GPU性能首秀:最大4.5倍提升

NVIDIA4nmGPU性能首秀:最大4.5倍提升北京时间9月9日,MLCommons社区发布了最新的MLPerf2.1基准测试结果,新一轮基准测试拥有近5300个性能结果和2400个功耗测量结果,分别比上一轮提升了1.37倍和1.09倍,MLPerf的适用范围进一步扩大。阿里巴巴、华硕、Azure、壁仞科技、戴尔、富士通、技嘉、H3C、HPE、浪潮、Intel、Krai、联想、Moffett、Nettrix、NeuralMagic、NVIDIA、OctoML、高通、SAPEON和Supermicro均是本轮测试的贡献者。PC版:https://www.cnbeta.com/articles/soft/1314491.htm手机版:https://m.cnbeta.com/view/1314491.htm

封面图片

AMD MI300X在大模型推理上可以与Nvidia H100相媲美

AMDMI300X在大模型推理上可以与NvidiaH100相媲美RunPod在Mixtral7x8B上运行了一系列基准测试,并将AMD的性能与Nvidia的H100进行了比较总结:-MI300X在小批量和大批量(1、2、4和256、512、1024)下的表现均优于H100SXM。-MI300X具有较低的第一个令牌延迟,尽管差异很小(36.89ms对55.24ms)。-无论批量大小,MI300X通常都比H100更具成本效益。同时由于MI300X拥有更大的显存,因此可以运行Mixtral7x8B等单个H100无法容纳的大型模型ViaDeemo关注频道@ZaiHuaPd频道爆料@ZaiHuabot

封面图片

谷歌配备 Nvidia H100 GPU 的新型 A3 GPU 超级计算机将于下个月全面上市

谷歌配备NvidiaH100GPU的新型A3GPU超级计算机将于下个月全面上市尽管价格超过30,000美元,Nvidia的H100GPU仍然是一种热门商品,以至于通常会出现缺货的情况。今年早些时候,谷歌云宣布推出其H100支持的A3GPU虚拟机的私人预览版,该虚拟机将Nvidia的芯片与谷歌定制设计的200Gpbs基础设施处理单元(IPU)结合在一起。现在,在CloudNext会议上,谷歌宣布将于下个月全面推出A3。去年发布A3时,谷歌云表示它将提供高达26exaflops的AI性能,并且部分得益于定制IPU,与上一代A2机器相比,网络带宽提高了10倍。投稿:@ZaiHuaBot频道:@TestFlightCN

封面图片

[图]NVIDIA更新Hopper H100规格:性能比预期更强悍

[图]NVIDIA更新HopperH100规格:性能比预期更强悍NVIDIA官方公开了HopperH100GPU的规格信息,性能要比预期的更加强悍。今年早些时候,NVIDIA宣布了适用于AI数据中心的HopperH100GPU,最高可以达到60TFLOPs和30TFLOPsFP64。PC版:https://www.cnbeta.com/articles/soft/1323519.htm手机版:https://m.cnbeta.com/view/1323519.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人