NVIDIA开源HPCG AI基准 支持Grace CPU以及Ampere和Hopper GPU

NVIDIA开源HPCG AI基准 支持Grace CPU以及Ampere和Hopper GPU 自英伟达之前宣布为 GeForce RTX 20 系列及以后的产品使用开源 GPU 内核以来,英伟达一直在寻求向更开源的方向转变,以促进其平台的开发,并在 Linux 方面大步迈进。这一次,该公司决定通过开源英伟达 HPCG 来帮助人工智能行业,该 HPCG 面向 Grace Superchips 和 Hopper 系列架构等人工智能硬件。NVIDIA的HPCG是一个专为高性能计算应用设计的基准测试,主要通过多种数学运算来测试特定硬件在不同场景下的性能。这不仅能让NVIDIA展示其GPU的能力,而且该软件包在优化HPC系统方面发挥了重要作用。在人工智能和高性能计算应用大幅增长的时代,NVIDIAHPCG 的开源意味着该公司决心看到资源的发展。以下是该公司自己详细介绍的主要功能:GitHub: HPCG 基准利用 NVIDIA 高性能数学库:cuSPARSE 和 NVPL Sparse,在 NVIDIA GPU 和 Grace CPU 上实现稀疏矩阵向量乘法 (SpMV) 和稀疏矩阵三角求解器 (SpSV) 的最高性能。NVIDIA HPCG 基准支持高度可配置的命令行参数,以决定:GPU 和 Grace CPU 的问题大小三维等级网格形状执行模式: 纯 CPU、纯 GPU 和异构点对点通信: MPI_Host(发送/回传)、MPI_Host_Alltoallv、MPI_CUDA_Aware、MPI_CUDA_Aware_Alltoallv 和 NCCLNUMA 相关配置在兼容性方面,NVIDIA HPCG 支持 Grace CPU 系统以及 Ampere 和 Hopper GPU 架构。该软件也只能在 Linux 下运行,这限制了它的使用范围。不过,这仍然是一个有趣举动,它表明了NVIDIA公司对资产开源的承诺。 ... PC版: 手机版:

相关推荐

封面图片

根据 Phoronix 对 GH100(包含单个 Grace 芯片)的评测,英伟达 Grace 服务器 CPU(72 核 Arm

根据 Phoronix 对 GH100(包含单个 Grace 芯片)的评测,英伟达 Grace 服务器 CPU(72 核 Arm 架构)相比 AMD 和英特尔的产品似乎显得非常具有竞争力,在很多测试项目中都胜过了最顶级的 EPYC 9754 或 Xeon Platinum 8592+ 处理器(但整体性能依然落后于 X86 产品)。 值得一提的是,英伟达不单独销售 Grace 芯片,所以最基础的 GH100 和 GH200(包括一个 Hopper GPU 和一个 72 核的 Grace CPU,配备 480GB LPDDR5X 内存)就是唯一可以测试 Grace CPU 性能的产品。 标签: #英伟达 #Grace #CPU 频道: @GodlyNews1 投稿: @GodlyNewsBot

封面图片

英伟达全面转向开源 GPU 内核模块

英伟达全面转向开源 GPU 内核模块 英伟达在 2022 年宣布开源其 Linux GPU 内核驱动模块,最初针对的是工作站/数据中心 GPU,随着开源内核驱动的改进,开源驱动模块与闭源驱动的性能相差无几。英伟达通过官方博客现在正式宣布,其开源内核模块最终将取代闭源驱动。英伟达称,对于 Grace Hopper 或 Blackwell 等平台,必须使用开源 GPU 内核模块,因为这些平台不支持私有驱动;对于来自 Turing、Ampere、Ada Lovelace 或 Hopper 架构的较新 GPU,它建议切换到开源的 GPU 内核模块;对于 Maxwell、Pascal 或 Volta 架构中的旧版 GPU,开源 GPU 内核模块不兼容,只能继续使用私有驱动。英伟达没有开源其用户空间驱动。 via Solidot

封面图片

Linux 6.9 VFIO更新为NVIDIA的Grace-Hopper芯片带来新版驱动程序

Linux 6.9 VFIO更新为NVIDIA的Grace-Hopper芯片带来新版驱动程序 NVIDIA公司为 Grace Hopper 超级芯片提供了一个 VFIO PCI 变体模块,以应对该大型芯片的特殊性。Linux 6.9 的VFIO 拉取请求解释了英伟达的新代码:"为NVIDIA的 Grace-Hopper 超级芯片的 GPU 添加新的 vfio-pci 变体驱动程序。  在该硬件模块的芯片到芯片互连初始化过程中,设备的 PCI BAR 将被闲置,转而使用更快、更连贯的机制来显示设备内存。 该驱动程序主要改变了设备的 VFIO 表示法取代用户空间驱动程序的物理 PCI BAR。此外,它还使用了新的 vma 标志,允许 KVM 对未缓存的设备内存使用写入结合属性。该补丁信息进一步描述了NVIDIA Grace Hopper 的新 VFIO 驱动程序代码。很高兴看到英伟达继续根据业务需要向 Linux 内核上游扩展。 ... PC版: 手机版:

封面图片

NVIDIA“最强AI芯片”Blackwell B200 GPU令业内惊呼新的摩尔定律诞生

NVIDIA“最强AI芯片”Blackwell B200 GPU令业内惊呼新的摩尔定律诞生 在GTC直播中,黄仁勋左手举着 B200 GPU,右手举着 H100此外,将两个B200 GPU与单个Grace CPU 结合在一起的 GB200,可以为LLM推理工作负载提供30倍的性能,并且显著提高效率。黄仁勋还强调称:“与H100相比,GB200的成本和能耗降低了25倍!关于市场近期颇为关注的能源消耗问题,B200 GPU也交出了最新的答卷。黄仁勋表示,此前训练一个1.8 万亿参数模型,需要8000 个 Hopper GPU 并消耗15 MW电力。但如今,2000 个 Blackwell GPU就可以实现这一目标,耗电量仅为4MW。在拥有1750亿参数的GPT-3大模型基准测试中,GB200的性能是H100的7倍,训练速度是H100的4倍。值得一提的是,B200 GPU的重要进步之一,是采用了第二代Transformer引擎。它通过对每个神经元使用4位(20 petaflops FP4)而不是8位,直接将计算能力、带宽和模型参数规模翻了一倍。而只有当这些大量的GPU连接在一起时,第二个重要区别才会显现,那就是新一代NVLink交换机可以让576个GPU相互通信,双向带宽高达1.8TB/秒。而这就需要英伟达构建一个全新的网络交换芯片,其中包括500亿个晶体管和一些自己的板载计算:拥有3.6 teraflops FP8处理能力。在此之前,仅16个GPU组成的集群,就会耗费60%的时间用于相互通信,只有40%的时间能用于实际计算。一石激起千层浪,“最强AI芯片”的推出让网友纷纷赞叹。其中英伟达高级科学家Jim Fan直呼:Blackwell新王诞生,新的摩尔定律已经应运而生。DGX Grace-Blackwell GB200:单个机架的计算能力超过1 Exaflop。黄仁勋交付给OpenAI的第一台DGX是0.17 Petaflops。GPT-4的1.8T参数可在2000个Blackwell上完成90天的训练。还有网友感叹:1000倍成就达成!Blackwell标志着在短短8年内,NVIDIA AI 芯片的计算能力实现了提升1000倍的历史性成就。2016 年,“Pascal”芯片的计算能力仅为19 teraflops,而今天Blackwell的计算能力已经达到了 20000 teraflops。相关文章:全程回顾黄仁勋GTC演讲:Blackwell架构B200芯片登场英伟达扩大与中国车企合作 为比亚迪提供下一代车载芯片英伟达进军机器人领域 发布世界首款人形机器人通用基础模型台积电、新思科技首次采用NVIDIA计算光刻平台:最快加速60倍NVIDIA共享虚拟现实环境技术将应用于苹果Vision Pro黄仁勋GTC演讲全文:最强AI芯片Blackwell问世 推理能力提升30倍 ... PC版: 手机版:

封面图片

NVIDIA官宣全新Rubin GPU、Vera CPU 3nm工艺配下代HBM4内存

NVIDIA官宣全新Rubin GPU、Vera CPU 3nm工艺配下代HBM4内存 NVIDIA现有的高性能GPU架构代号“Blackwell”,已经投产,相关产品今年陆续上市,包括用于HPC/AI领域的B200/GB200、用于游戏的RTX 50系列。2025年将看到“Blackwell Ultra”,自然是升级版本,但具体情况没有说。2026年就是全新的下一代“Rubin”,命名源于美国女天文学家Vera Rubin(薇拉·鲁宾),搭配下一代HBM4高带宽内存,8堆栈。根据曝料,Rubin架构首款产品为R100,采用台积电3nm EUV制造工艺,四重曝光技术,CoWoS-L封装,预计2025年第四季度投产。2027年则是升级版的“Rubin Ultra”,HBM4内存升级为12堆栈,容量更大,性能更高。CPU方面下代架构代号“Vera”没错,用一个名字同时覆盖GPU、CPU,真正二合一。Vera CPU、Rubin GPU组成新一代超级芯片也在规划之中,将采用第六代NVLink互连总线,带宽高达3.6TB/s。此外,NVIDIA还有新一代数据中心网卡CX9 SuperNIC,最高带宽可达1600Gbps,也就是160万兆,并搭配新的InfiniBand/以太网交换机X1600。 ... PC版: 手机版:

封面图片

为什么有了CPU,还要研究GPU?

为什么有了CPU,还要研究GPU? llk的回答 一句话结论就是之前是软件时代,现在是AI时代。 真是时代的浪潮一波接一波,三国演义里的片头词很合适:滚滚长江东逝水,浪花淘尽英雄。是非成败转头空。青山依旧在,几度夕阳红。 白发渔樵江渚上,惯看秋月春风。一壶浊酒喜相逢。古今多少事,都付笑谈中曾几何时,在CPU市场,Intel通过wintel联盟统治了消费端,反过来通过消费端的利润和技术迭代从IBM/SUN等手里抢过了数据中心业务。那是一段关于CPU在指令集架构,和实现微架构上荡气回肠的历史,Intel最终成为了CPU市场的赢家,而广大消费者也用上了性价比越来越高的计算机。那个时候NVIDIA还是一家GPU公司,营收不到Intel的零头,产品GPU更是作为CPU的一个加速设备而存在。 但是伴随CPU性能提升的逐渐放缓,Intel或者说CPU上的光环不在。 人们转向并行计算,而NVIDIA则在这一转变中成功抓住机会,在2006年推出了Tesla架构,成功从GPU变成GPGPU NVIDIA称这一架构叫做scalable processor array,真是贴切,既可以在SM里扩展SP,又可以在芯片层面扩展SM。所以伴随摩尔定律,NVIDIA的GPGPU越来越大,性能也越来越强。一直到2012年,AI的浪潮爆发了,NVIDIA多年前的技术上的决策得到了回报,GPGPU大行其道,甚至成为AI计算的标准。 而大语言模型的爆发更是催生了对高性能计算的迫切需求,NVIDIA股价更是一飞冲天。而随着GPGPU成为计算的主力,之前计算的主力CPU的市场就被大大削弱了。看看NVIDIA的DGX-1系统 8个GPU才搭配两个CPU,GPU成功从曾经的从设备变成了主角,而CPU则从王座跌落,成了主角背后的辅助。 雷军说过,风口上的猪都能飞起来,更何况NVIDIA本来就是图形和并行计算领域的领导者。时来天地皆同力,运去英雄不自由这是对GPU和CPU最好的注释了。 via 知乎热榜 (author: llk)

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人