NVIDIA 4nm GPU性能首秀:最大4.5倍提升

NVIDIA4nmGPU性能首秀:最大4.5倍提升北京时间9月9日,MLCommons社区发布了最新的MLPerf2.1基准测试结果,新一轮基准测试拥有近5300个性能结果和2400个功耗测量结果,分别比上一轮提升了1.37倍和1.09倍,MLPerf的适用范围进一步扩大。阿里巴巴、华硕、Azure、壁仞科技、戴尔、富士通、技嘉、H3C、HPE、浪潮、Intel、Krai、联想、Moffett、Nettrix、NeuralMagic、NVIDIA、OctoML、高通、SAPEON和Supermicro均是本轮测试的贡献者。PC版:https://www.cnbeta.com/articles/soft/1314491.htm手机版:https://m.cnbeta.com/view/1314491.htm

相关推荐

封面图片

英伟达 H100 (Hopper ) 首次亮相 MLPerf,测试结果刷新纪录

英伟达H100(Hopper)首次亮相MLPerf,测试结果刷新纪录北京时间9月9日,MLCommons社区发布了最新的MLPerf2.1基准测试结果,新一轮基准测试拥有近5300个性能结果和2400个功耗测量结果,分别比上一轮提升了1.37倍和1.09倍,MLPerf的适用范围进一步扩大。阿里巴巴、华硕、Azure、壁仞科技、戴尔、富士通、技嘉、H3C、HPE、浪潮、英特尔、Krai、联想、Moffett、Nettrix、NeuralMagic、英伟达、OctoML、高通、SAPEON和Supermicro均是本轮测试的贡献者。其中,英伟达表现依然亮眼,首次携H100(又名Hopper)参加MLPerf测试,并在所有工作负载中刷新世界纪录。这些测试结果表明,对于那些需要在高级AI模型上获得最高性能的用户来说,Hopper是最优选择。此外,NVIDIAA100TensorCoreGPU和用于AI机器人的NVIDIAJetsonAGXOrin模块在所有MLPerf测试中继续表现出整体领先的推理性能,包括图像和语音识别自然语言处理和推荐系统。前文:来自:雷锋频道:@kejiqu群组:@kejiquchat投稿:@kejiqubot

封面图片

3nm Blackwell芯片加持 NVIDIA RTX 5090首曝:性能成倍提升

3nmBlackwell芯片加持NVIDIARTX5090首曝:性能成倍提升日前,爆料大神RedGamingTech抢先分享了RTX50系显卡或者说BlackwellGPU的部分细节。他指出,新一代游戏显卡(如GB102)依然是单GPU芯片设计,单服务器/数据中心产品则会采用MCM多芯片互联。规格方面,基于GB102的RTX5090包含144组SM单元,也就是18432个CUDA(假设每组SM还是128个CUDA),比RTX4090多出12.5%,96MB二级缓存,匹配GDDR7显存(384bit位宽),支持PCIe5.0x16。得益于台积电专门为NVIDIA定制的3nm工艺,RTX50系的整体能效进一步改善,核心频率超3GHz,性能有望达到RTX40系的2~2.6倍。...PC版:https://www.cnbeta.com.tw/articles/soft/1353323.htm手机版:https://m.cnbeta.com.tw/view/1353323.htm

封面图片

NVIDIA H100计算卡强势垄断AI:性能暴涨4.5倍 对手不存在的

NVIDIAH100计算卡强势垄断AI:性能暴涨4.5倍对手不存在的HopperH100早在2022年3月就发布了,GH100GPU核心,台积电4nm工艺,800亿晶体管,814平方毫米面积。它集成18432个CUDA核心、576个Tensor核心、60MB二级缓存,搭配6144-bit位宽的六颗HBM3/HBM2e高带宽内存,支持第四代NVLink、PCIe5.0总线。相比于ChatGPT等目前普遍使用的A100,H100的理论性能提升了足足6倍。不过直到最近,H100才开始大规模量产,微软、谷歌、甲骨文等云计算服务已开始批量部署。MLPerfInference是测试AI推理性能的行业通行标准,最新版本v3.0,也是这个工具诞生以来的第七个大版本更新。对比半年前的2.1版本,NVIDIAH100的性能在不同测试项目中提升了7-54%不等,其中进步最大的是RetinaNet全卷积神经网络测试,3DU-Net医疗成像网络测试也能提升31%。对比A100,跨代提升更是惊人,无延迟离线测试的变化幅度少则1.8倍,多则可达4.5倍,延迟服务器测试少则超过1.7倍,多则也能接近4倍。其中,DLRM、BERT训练模型的提升最为显著。NVIDIA还颇为羞辱性地列上了Intel最新数据中心处理器旗舰至强铂金8480+的成绩,虽然有56个核心,但毕竟术业有专攻,让通用处理器跑AI训练实在有点为难,可怜的分数不值一提,BERT99.9%甚至都无法运行,而这正是NVIDIAH100的最强项。此外,NVIDIA还第一次公布了L4GPU的性能。它基于最新的Ada架构,只有Tensor张量核心,支持FP8浮点计算,主要用于AI推理,也支持AI视频编码加速。对比上代T4,L4的性能可加速2.2-3.1倍之多,最关键的是它功耗只有72W,再加上单槽半高造型设计,可谓小巧彪悍。几乎所有的大型云服务供应商都部署了T4,升级到L4只是时间问题,Google就已经开始内测。...PC版:https://www.cnbeta.com.tw/articles/soft/1353335.htm手机版:https://m.cnbeta.com.tw/view/1353335.htm

封面图片

NVIDIA DLSS 3开启前后对比:性能提升高达4倍

NVIDIADLSS3开启前后对比:性能提升高达4倍NVIDIA今天发布了NVIDIADLSS3。这是一款由AI驱动的性能倍增器,开启NVIDIARTX神经网络渲染游戏和应用的新时代。官方以《赛博朋克2077》为例,展示了开启DLSS3.0前后的帧数对比。PC版:https://www.cnbeta.com/articles/soft/1318617.htm手机版:https://m.cnbeta.com/view/1318617.htm

封面图片

NVIDIA自研4nm CPU跑分超越阿里128核CPU登顶第一

NVIDIA自研4nmCPU跑分超越阿里128核CPU登顶第一在自研CPU上,NVIDIA去年就公布了GraceCPU服务器处理器,这是一款高达144核的ARM处理器,日前在hotchips会议上NVIDIA又公布了Grace的架构细节及跑分,SPECrate2017_int_base最高可达740分,不仅超过了AMD及Intel的x86旗舰,也超过了前不久拿下第一的阿里倚天710处理器。GraceCPU之前说是5nm工艺,现在确认是5nm改良版的4nm定制版,单核心可达72核,双芯下可达144核,L3缓存117MB(双芯下234MB),内部芯片互联带宽可达3.2TB/s,支持68路PCIe5.0,支持16通道LPDDR5X内存,带宽超过1TB/s,C2C-NVlink总线带宽高达900GB/s,是PCIe5.0的7倍性能,5倍能效。此外,NVIDIA还公布了GraceCPU的性能,单芯72核的SPECrate2017_int_base性能是370分,双芯下可达740分,并行效率非常高,基本上是线性提升。这个性能是什么概念呢?hardwarexxx网站汇总了多个SPECrate2017_int_base分数,AMD及Intel的36核或者64核x86处理器,同时也超过了阿里的倚天710。740分的SPECrate2017_int_base性能是目前最高的,不仅遥遥领先倚天710是阿里自研的5nm128核ARM服务器处理器,之前以510分的成绩成为SPECrate2017_int_base第一,现在被NVIDIA的144核CPU超越了也是正常,毕竟在内存及互连架构上NVIDIA的设计更恐怖。PC版:https://www.cnbeta.com/articles/soft/1307053.htm手机版:https://m.cnbeta.com/view/1307053.htm

封面图片

高通发布骁龙6 Gen1芯片:AI性能增加3倍 4nm制程加持

高通发布骁龙6Gen1芯片:AI性能增加3倍4nm制程加持9月6日晚间消息,高通正式发布骁龙6Gen1芯片,型号SM6450。这颗芯片创造了骁龙6系家族多项第一,包括首次支持HDR计算摄影、首次支持2亿像素、首次集成第7代骁龙AI引擎、5G支持3GPPR16规范、首次支持Wi-Fi6E等。性能方面,骁龙6Gen1采用4nm工艺制程,对比上一代骁龙6955GSoC,CPU快了40%、GPU快了35%,AI性能更是增加3倍。其它基本参数上,CPU部分仍基于ARMv8指令集开发,8核定制Kryo(4xA78+4xA55),最高频率2.2~2.3GHz,显示单元支持1080P分辨率120Hz屏幕,集成X625G基带(2.9Gbps)、集成FastConnect6700连接单元(蓝牙5.2+Wi-Fi6E)等。高通表示,骁龙6Gen1首批终端将在2023年一季度登场。PC版:https://www.cnbeta.com/articles/soft/1313213.htm手机版:https://m.cnbeta.com/view/1313213.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人