NVIDIA 4nm GPU性能首秀：最大4.5倍提升

NVIDIA4nmGPU性能首秀：最大4.5倍提升北京时间9月9日，MLCommons社区发布了最新的MLPerf2.1基准测试结果，新一轮基准测试拥有近5300个性能结果和2400个功耗测量结果，分别比上一轮提升了1.37倍和1.09倍，MLPerf的适用范围进一步扩大。阿里巴巴、华硕、Azure、壁仞科技、戴尔、富士通、技嘉、H3C、HPE、浪潮、Intel、Krai、联想、Moffett、Nettrix、NeuralMagic、NVIDIA、OctoML、高通、SAPEON和Supermicro均是本轮测试的贡献者。PC版：https://www.cnbeta.com/articles/soft/1314491.htm手机版：https://m.cnbeta.com/view/1314491.htm

在Telegram中查看

相关推荐

英伟达 H100 (Hopper ) 首次亮相 MLPerf，测试结果刷新纪录

英伟达H100(Hopper)首次亮相MLPerf，测试结果刷新纪录北京时间9月9日，MLCommons社区发布了最新的MLPerf2.1基准测试结果，新一轮基准测试拥有近5300个性能结果和2400个功耗测量结果，分别比上一轮提升了1.37倍和1.09倍，MLPerf的适用范围进一步扩大。阿里巴巴、华硕、Azure、壁仞科技、戴尔、富士通、技嘉、H3C、HPE、浪潮、英特尔、Krai、联想、Moffett、Nettrix、NeuralMagic、英伟达、OctoML、高通、SAPEON和Supermicro均是本轮测试的贡献者。其中，英伟达表现依然亮眼，首次携H100（又名Hopper）参加MLPerf测试，并在所有工作负载中刷新世界纪录。这些测试结果表明，对于那些需要在高级AI模型上获得最高性能的用户来说，Hopper是最优选择。此外，NVIDIAA100TensorCoreGPU和用于AI机器人的NVIDIAJetsonAGXOrin模块在所有MLPerf测试中继续表现出整体领先的推理性能，包括图像和语音识别自然语言处理和推荐系统。前文：来自：雷锋频道：@kejiqu群组：@kejiquchat投稿：@kejiqubot

3nm Blackwell芯片加持 NVIDIA RTX 5090首曝：性能成倍提升

3nmBlackwell芯片加持NVIDIARTX5090首曝：性能成倍提升日前，爆料大神RedGamingTech抢先分享了RTX50系显卡或者说BlackwellGPU的部分细节。他指出，新一代游戏显卡（如GB102）依然是单GPU芯片设计，单服务器/数据中心产品则会采用MCM多芯片互联。规格方面，基于GB102的RTX5090包含144组SM单元，也就是18432个CUDA（假设每组SM还是128个CUDA），比RTX4090多出12.5%，96MB二级缓存，匹配GDDR7显存（384bit位宽），支持PCIe5.0x16。得益于台积电专门为NVIDIA定制的3nm工艺，RTX50系的整体能效进一步改善，核心频率超3GHz，性能有望达到RTX40系的2~2.6倍。...PC版：https://www.cnbeta.com.tw/articles/soft/1353323.htm手机版：https://m.cnbeta.com.tw/view/1353323.htm

NVIDIA H100计算卡强势垄断AI：性能暴涨4.5倍对手不存在的

NVIDIAH100计算卡强势垄断AI：性能暴涨4.5倍对手不存在的HopperH100早在2022年3月就发布了，GH100GPU核心，台积电4nm工艺，800亿晶体管，814平方毫米面积。它集成18432个CUDA核心、576个Tensor核心、60MB二级缓存，搭配6144-bit位宽的六颗HBM3/HBM2e高带宽内存，支持第四代NVLink、PCIe5.0总线。相比于ChatGPT等目前普遍使用的A100，H100的理论性能提升了足足6倍。不过直到最近，H100才开始大规模量产，微软、谷歌、甲骨文等云计算服务已开始批量部署。MLPerfInference是测试AI推理性能的行业通行标准，最新版本v3.0，也是这个工具诞生以来的第七个大版本更新。对比半年前的2.1版本，NVIDIAH100的性能在不同测试项目中提升了7-54％不等，其中进步最大的是RetinaNet全卷积神经网络测试，3DU-Net医疗成像网络测试也能提升31％。对比A100，跨代提升更是惊人，无延迟离线测试的变化幅度少则1.8倍，多则可达4.5倍，延迟服务器测试少则超过1.7倍，多则也能接近4倍。其中，DLRM、BERT训练模型的提升最为显著。NVIDIA还颇为羞辱性地列上了Intel最新数据中心处理器旗舰至强铂金8480+的成绩，虽然有56个核心，但毕竟术业有专攻，让通用处理器跑AI训练实在有点为难，可怜的分数不值一提，BERT99.9％甚至都无法运行，而这正是NVIDIAH100的最强项。此外，NVIDIA还第一次公布了L4GPU的性能。它基于最新的Ada架构，只有Tensor张量核心，支持FP8浮点计算，主要用于AI推理，也支持AI视频编码加速。对比上代T4，L4的性能可加速2.2-3.1倍之多，最关键的是它功耗只有72W，再加上单槽半高造型设计，可谓小巧彪悍。几乎所有的大型云服务供应商都部署了T4，升级到L4只是时间问题，Google就已经开始内测。...PC版：https://www.cnbeta.com.tw/articles/soft/1353335.htm手机版：https://m.cnbeta.com.tw/view/1353335.htm

NVIDIA DLSS 3开启前后对比：性能提升高达4倍

NVIDIADLSS3开启前后对比：性能提升高达4倍NVIDIA今天发布了NVIDIADLSS3。这是一款由AI驱动的性能倍增器，开启NVIDIARTX神经网络渲染游戏和应用的新时代。官方以《赛博朋克2077》为例，展示了开启DLSS3.0前后的帧数对比。PC版：https://www.cnbeta.com/articles/soft/1318617.htm手机版：https://m.cnbeta.com/view/1318617.htm

NVIDIA自研4nm CPU跑分超越阿里128核CPU登顶第一

NVIDIA自研4nmCPU跑分超越阿里128核CPU登顶第一在自研CPU上，NVIDIA去年就公布了GraceCPU服务器处理器，这是一款高达144核的ARM处理器，日前在hotchips会议上NVIDIA又公布了Grace的架构细节及跑分，SPECrate2017_int_base最高可达740分，不仅超过了AMD及Intel的x86旗舰，也超过了前不久拿下第一的阿里倚天710处理器。GraceCPU之前说是5nm工艺，现在确认是5nm改良版的4nm定制版，单核心可达72核，双芯下可达144核，L3缓存117MB（双芯下234MB），内部芯片互联带宽可达3.2TB/s，支持68路PCIe5.0，支持16通道LPDDR5X内存，带宽超过1TB/s，C2C-NVlink总线带宽高达900GB/s，是PCIe5.0的7倍性能，5倍能效。此外，NVIDIA还公布了GraceCPU的性能，单芯72核的SPECrate2017_int_base性能是370分，双芯下可达740分，并行效率非常高，基本上是线性提升。这个性能是什么概念呢？hardwarexxx网站汇总了多个SPECrate2017_int_base分数，AMD及Intel的36核或者64核x86处理器，同时也超过了阿里的倚天710。740分的SPECrate2017_int_base性能是目前最高的，不仅遥遥领先倚天710是阿里自研的5nm128核ARM服务器处理器，之前以510分的成绩成为SPECrate2017_int_base第一，现在被NVIDIA的144核CPU超越了也是正常，毕竟在内存及互连架构上NVIDIA的设计更恐怖。PC版：https://www.cnbeta.com/articles/soft/1307053.htm手机版：https://m.cnbeta.com/view/1307053.htm

高通发布骁龙6 Gen1芯片：AI性能增加3倍 4nm制程加持

高通发布骁龙6Gen1芯片：AI性能增加3倍4nm制程加持9月6日晚间消息，高通正式发布骁龙6Gen1芯片，型号SM6450。这颗芯片创造了骁龙6系家族多项第一，包括首次支持HDR计算摄影、首次支持2亿像素、首次集成第7代骁龙AI引擎、5G支持3GPPR16规范、首次支持Wi-Fi6E等。性能方面，骁龙6Gen1采用4nm工艺制程，对比上一代骁龙6955GSoC，CPU快了40%、GPU快了35%，AI性能更是增加3倍。其它基本参数上，CPU部分仍基于ARMv8指令集开发，8核定制Kryo（4xA78+4xA55），最高频率2.2~2.3GHz，显示单元支持1080P分辨率120Hz屏幕，集成X625G基带（2.9Gbps）、集成FastConnect6700连接单元（蓝牙5.2+Wi-Fi6E）等。高通表示，骁龙6Gen1首批终端将在2023年一季度登场。PC版：https://www.cnbeta.com/articles/soft/1313213.htm手机版：https://m.cnbeta.com/view/1313213.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人