Nvidia 将旗舰 H100 GPU 调整为 H800，专门向中国出口还是用砍互联速率的法子，NVLink 从 900GB/s

微软 Azure ND H100 v5 虚拟机发布：采用 8 至上千个 NVIDIA H100 Tensor Core GPU

微软 Azure ND H100 v5 虚拟机发布：采用 8 至上千个 NVIDIA H100 Tensor Core GPU 微软现推出 ND H100 v5 VM，是 Azure 迄今更强大和高度可伸缩的 AI 虚拟机系列。该虚拟机支持的按需配置可达 8 至上千个通过 Quantum-2 InfiniBand 网络互连的 NVIDIA H100 GPU，使得 AI 模型的性能明显提高。相较上一代 ND A100 v4 VM，本次推出的虚拟机包含以下创新技术： 8x NVIDIA H100 Tensor Core GPU 透过下一代 NVSwitch 和 NVLink 4.0 互连每个 GPU 400 Gb/s NVIDIA Quantum-2 CX7 InfiniBand 在无阻塞胖树网络中每个虚拟机 3.2Tb/s NVSwitch 和 NVLink 4.0 在每个虚拟机中的 3 个本地 GPU 之间具有 6.8TB/s 的对分割带宽第四代英特尔至强可扩展处理器 PCIE 第 5 代主机到 GPU 互连，每个 GPU 带宽为 64GB/s 16 通道 4800MHz DDR5 内存来源，来自：雷锋频道：@kejiqu 群组：@kejiquchat 投稿：@kejiqubot

学术论文显示NVIDIA H100 AI GPU依然存在于中国研究人员之手

学术论文显示NVIDIA H100 AI GPU依然存在于中国研究人员之手美国的新政策千方百计阻止向中国等一系列国家进行"技术转让"，就在不久前，拜登政府还对人工智能 GPU 的出口实施了严厉的监管，以防止中国人工智能基础设施的快速发展。然而，尽管采取了这些策略，据报道，美国政府可能会发现自己的贸易政策存在漏洞，因为《每日电讯报》披露，据报道，中国科学院的研究人员在多项实验中使用了英伟达的H100人工智能GPU，这表明新法规可能不会有太大效果。四篇发表在"开放获取"科学网站 ArXiv 上的学术论文披露了这一信息，研究内容包括使用人工智能加速器解决复杂的数学和逻辑问题。据说，研究人员能够拿到八张或更少的英伟达 H100，这当然不是一个庞大的数字，但它引起了人们对美国法规执行情况的质疑。不过，由于英伟达的 Hopper GPU 在禁令生效前一直在市场上销售，因此目前还不确定参与研究的人员是购买了新的 H100，还是对市场上的现有 SKU 进行了研究。我们无法确定这些 GPU 最初是如何进入中国市场的，但猜测最大可能是来自中东等美国合规国家的外包。我们曾在中国公司图森未来身上看到过类似的例子，当时美国政府以潜在的技术转让为由，干预了英伟达向该公司销售 A100的事宜。由于图森未来从澳大利亚的一家子公司订购 GPU，因此绕过了美国商务部的监管。对美国来说，封锁人工智能产业所需的关键组件的访问途径并非易事，即使在大力实施之后，个人或黑名单上的公司也会发现所实施的政策存在某些漏洞，最终给政府造成另一种令人担忧的局面。 ... PC版：手机版：

NVIDIA官方回应H20砍单传言

NVIDIA官方回应H20砍单传言近期，有机构对于此时采访了对于NVIDIA市场部的领导进行了访谈。具体答复如下：Q：H20组成集群的性能与Ascend 910的比较？A：服务器卡间瓶颈，服务器间瓶颈。卡间互联910的互联带宽是H20的一半，卡间互联性能下降一半。服务器间互联，NVIDIA有一分半IB交换机，没有替代解决方案。国内是400、800G集群交换机，算力损耗比较大。Q：H20的NVLINK是900GB/s，H800只是400GB/s，可以达到吗？A：NVLINK对NV不是高端的，很成熟了，H系列都可以支撑。网络带宽支撑这么大，可以买更多的卡达到，NVLINK的传输速度可以领先的。异腾达不到的，现在是400G，8卡一连就是200了。Q：近日是否有中国的订单大量砍单的情况？A：截止昨日，H20的中国订单一直稳定，市场部尚未接到大量砍单的现象。Q：请领导介绍一下H20的优势和劣势？A：NVIDIA作为全球AI芯片的领导者，无论在硬件上还是在软件生态上都是最成熟的。H20是高缓存、高带宽，但是算力性能差，这主要是禁令的要求和限制。H20卡算力性能与910相比差了一些，但是，缓存与带宽远比910高，带宽是910两倍。NV有NVLINK架构，H20可以是通过多卡使用、多卡堆叠模式，完全超越910，甚至突破H100。Q：中国市场的业务拓展情况？A：H20就是为中国推出的定制版，公司十分重视中国市场，已经启动H20的推广，委托中国国内最强的技术团队，届时，现场有千台H20组网集群，大家一定会看到非常震撼的效果。NVIDIA近况交流要点：H20：1）专供国内的训练卡，目前已确定数量在40w张左右，随着国内互联网等企业对该卡的接受度增加，有较大提升空间；2）价格下降，1月份定价为2.3-2.5w美元，2月份下降至1.2-1.4w美元，主要系910b的压力；3）单卡性能为910b的60%+，单卡算力为H100的20%;4）集群性能优越，主要受益于NVIDIA NVLINK技术。B100：1）目前市面上最高端的训练卡，性能为H100的三倍多；2）24年7月份开始小批量供应，25年起起量供应成为主力训练卡；3）按照H100算力和客户价格接受度预测在3.6-3.9w美金之间，不会超过4w美元；4）分为低算力/高算力两种，对应散热方式是风能/液冷，占比60%液冷+ 40%风能。NVIDIA25年及以后：1）25年训练卡的总量约为500w张，推测b100/h200/h100分别为200w/100w/100w；2）23年至25年，NVIDIA训练卡将处于高峰期。预计在26年，随着AI应用广泛存在，AI服务器的增速将逐渐平缓。这一趋势将促使通用服务器逐渐摆脱AI服务器的冲击，并扭转之前的负增长态势。预计在27年，通用服务器市场将恢复正增长。格局变化：1）预计在27年，通用服务器市场将恢复正增长。2）AI服务器代工无影响，推理+训练此消彼长，总量不变；3）可能影响卡的代工厂商，训练卡25年增速放缓，其代工厂寻求其他产能合作。 ... PC版：手机版：

中国特供预估年销900亿 NVIDIA H20细节曝光：核心狂砍41%、性能暴跌28%

中国特供预估年销900亿 NVIDIA H20细节曝光：核心狂砍41%、性能暴跌28% 根据Geekbench 6测试数据，H20配备78组SM，而H100 GPU总共配备144组SM，不过并没有全部打开，其中SXM5版本中启用了132组SM，而PCIe 5.0版本则启用了114组SM。此外，H20配备了96GB的HBM3内存，比原始H100的80GB要高，但低于新版H100的144GB HBM3E内存；同时H20的带宽为4.0 TB/s，低于顶级H100的8.0 TB/s性能方面，NVIDIA H20的INT8为296 TFLOPS，FP16为148 TFLOPS，TF32为74 TFLOPS，FP32为44 TFLOPS，而FP64只有1 TFLOPS。在OpenCL测试中，H20的成绩为248992分，H100 80GB版本大概在280000分，如果是拥有132组SM的H100可达350000分左右，配备了144GB HBM3E的H100分数就更高了。其他方面，H20还配有60MB的L2缓存，支持7个多实例GPU，8路HGX配置，900 GB/s的NVLink带宽，TDP为400W。根据芯片行业咨询公司SemiAnalysis的预测，NVIDIA有望在当前财年交付超过100万个H20芯片，预计每个芯片售价在1.2万至1.3万美元之间。也就意味着H20芯片预估今年销售额将超过120亿美元（约合870亿元人民币），有望超过上一财年NVIDIA的中国区营收。 ... PC版：手机版：

Omdia：英伟达二季度出货900吨H100 AI GPU 相当于约30万块==========赢

NVIDIA H100服务器国内黑市现货价大跌超10%