中国特供预估年销900亿 NVIDIA H20细节曝光：核心狂砍41%、性能暴跌28%

中国特供预估年销900亿 NVIDIA H20细节曝光：核心狂砍41%、性能暴跌28% 根据Geekbench 6测试数据，H20配备78组SM，而H100 GPU总共配备144组SM，不过并没有全部打开，其中SXM5版本中启用了132组SM，而PCIe 5.0版本则启用了114组SM。此外，H20配备了96GB的HBM3内存，比原始H100的80GB要高，但低于新版H100的144GB HBM3E内存；同时H20的带宽为4.0 TB/s，低于顶级H100的8.0 TB/s性能方面，NVIDIA H20的INT8为296 TFLOPS，FP16为148 TFLOPS，TF32为74 TFLOPS，FP32为44 TFLOPS，而FP64只有1 TFLOPS。在OpenCL测试中，H20的成绩为248992分，H100 80GB版本大概在280000分，如果是拥有132组SM的H100可达350000分左右，配备了144GB HBM3E的H100分数就更高了。其他方面，H20还配有60MB的L2缓存，支持7个多实例GPU，8路HGX配置，900 GB/s的NVLink带宽，TDP为400W。根据芯片行业咨询公司SemiAnalysis的预测，NVIDIA有望在当前财年交付超过100万个H20芯片，预计每个芯片售价在1.2万至1.3万美元之间。也就意味着H20芯片预估今年销售额将超过120亿美元（约合870亿元人民币），有望超过上一财年NVIDIA的中国区营收。 ... PC版：手机版：

在Telegram中查看

相关推荐

消息称英伟达“特供版”H20芯片2024年GTC大会后全面接受预订

消息称英伟达“特供版”H20芯片2024年GTC大会后全面接受预订今年1月有消息称，英伟达已开始接受经销商预订一款新的中国专用人工智能（AI）芯片H20，这些芯片的定价与中国等竞争对手产品相当。H20显卡是英伟达为中国市场开发的三款显卡中最强大的一款。但H20的计算能力自然会低于英伟达的旗舰H100 AI芯片和此前英伟达针对中国市场的H800。据三位消息人士透露，H20的规格似乎也表明，它在某些关键领域的性能不如中国竞争对手，例如衡量芯片处理常见任务速度的FP32性能方面，但在互连速度方面H20似乎更具优势。英伟达对中国H20分销商的订单定价为每张卡12000美元~15000美元。根据此前曝光的参数信息，英伟达H20与H100、H200同系列，均采用英伟达Hopper架构，但显存容量增大至96GB HBM3，GPU显存带宽4.0TB/s。算力方面，该产品的FP8算力为296 TFLOPS，FP16算力为148 TFLOPS，仅为当今“最强”AI芯片H200的1/13。 ... PC版：手机版：

精准缩水的NVIDIA三款中国特供AI GPU开始小批量供货

精准缩水的NVIDIA三款中国特供AI GPU开始小批量供货但是很快，美国出台新规，算力也做了限制，A800、H800甚至是RTX 4090就都没法卖了。为此，NVIDIA在游戏卡市场设计了RTX 4090D，已经低调上市。而在AI加速领域，NVIDIA设计了H20、L20、L2，原计划2023年就发布出货，但为了完全符合出口管制，推迟了一段时间。H20基于Hopper架构，是一款高性能的AI训练卡，正是中国客户亟需的，根据最新报道它已经开始小批量供货给中国，第二季度上量。H20的定价据称仅为1.2-1.5万美元，比华为升腾910B 1.7万美元要低不少，用心昭然若揭。L20、L2均基于Ada Lovelace架构，均为AI推理卡，暂不清楚是否已经供货，可能要稍等等，对于中国客户而言也不是非常迫切的需要。目前，三款新卡的最终规格已经确定，和之前曝光的基本一致。H20的规格还是比较强的，INT8/FP8 Tensor算力为296T，BF16/FP16 Tensor算力为148T，TF32 Tensor算力为74T，FP32算力为44T，FP64算力为1T，功耗400W。它具备60MB二级缓存、96GB HBM3内存，带宽4TB/s，支持7路NVDEC、7路NVJPEG视频引擎，还有着PCIe 5.0 x16系统接口、900GB/s NVLink互联带宽，支持最多7个MIG。相比于H200，它少了45GB HBM3，算力更是阉割得七零八落，INT8/FP8、BF16/FP16、TF32都少了多达93％，FP64少了足足97％，只有FP32至少了35％。但即便如此，H20 FP32性能依然不如华为升腾910B，这也是后者最大的优势。H20还可以八卡并行，组成一套HGX服务器，价格大约20万美元，而之前八块H800服务器需要大约28万美元。L20是双插槽全高全长PCIe扩展卡，搭载96MB二级缓存、48GB GDDR6 ECC内存，带宽864GB/s，INT8/FP8算力为239T，更高精度逐级减半，但不支持FP64，功耗275W。L2则是单插槽半高卡，只有36MB二级缓存、24GB GDDR6 ECC，带宽300GB/s，算力进一步降低INT8/FP8 193T，FP32额外砍了一半只有24.1T。 ... PC版：手机版：

NVIDIA官方回应H20砍单传言

NVIDIA官方回应H20砍单传言近期，有机构对于此时采访了对于NVIDIA市场部的领导进行了访谈。具体答复如下：Q：H20组成集群的性能与Ascend 910的比较？A：服务器卡间瓶颈，服务器间瓶颈。卡间互联910的互联带宽是H20的一半，卡间互联性能下降一半。服务器间互联，NVIDIA有一分半IB交换机，没有替代解决方案。国内是400、800G集群交换机，算力损耗比较大。Q：H20的NVLINK是900GB/s，H800只是400GB/s，可以达到吗？A：NVLINK对NV不是高端的，很成熟了，H系列都可以支撑。网络带宽支撑这么大，可以买更多的卡达到，NVLINK的传输速度可以领先的。异腾达不到的，现在是400G，8卡一连就是200了。Q：近日是否有中国的订单大量砍单的情况？A：截止昨日，H20的中国订单一直稳定，市场部尚未接到大量砍单的现象。Q：请领导介绍一下H20的优势和劣势？A：NVIDIA作为全球AI芯片的领导者，无论在硬件上还是在软件生态上都是最成熟的。H20是高缓存、高带宽，但是算力性能差，这主要是禁令的要求和限制。H20卡算力性能与910相比差了一些，但是，缓存与带宽远比910高，带宽是910两倍。NV有NVLINK架构，H20可以是通过多卡使用、多卡堆叠模式，完全超越910，甚至突破H100。Q：中国市场的业务拓展情况？A：H20就是为中国推出的定制版，公司十分重视中国市场，已经启动H20的推广，委托中国国内最强的技术团队，届时，现场有千台H20组网集群，大家一定会看到非常震撼的效果。NVIDIA近况交流要点：H20：1）专供国内的训练卡，目前已确定数量在40w张左右，随着国内互联网等企业对该卡的接受度增加，有较大提升空间；2）价格下降，1月份定价为2.3-2.5w美元，2月份下降至1.2-1.4w美元，主要系910b的压力；3）单卡性能为910b的60%+，单卡算力为H100的20%;4）集群性能优越，主要受益于NVIDIA NVLINK技术。B100：1）目前市面上最高端的训练卡，性能为H100的三倍多；2）24年7月份开始小批量供应，25年起起量供应成为主力训练卡；3）按照H100算力和客户价格接受度预测在3.6-3.9w美金之间，不会超过4w美元；4）分为低算力/高算力两种，对应散热方式是风能/液冷，占比60%液冷+ 40%风能。NVIDIA25年及以后：1）25年训练卡的总量约为500w张，推测b100/h200/h100分别为200w/100w/100w；2）23年至25年，NVIDIA训练卡将处于高峰期。预计在26年，随着AI应用广泛存在，AI服务器的增速将逐渐平缓。这一趋势将促使通用服务器逐渐摆脱AI服务器的冲击，并扭转之前的负增长态势。预计在27年，通用服务器市场将恢复正增长。格局变化：1）预计在27年，通用服务器市场将恢复正增长。2）AI服务器代工无影响，推理+训练此消彼长，总量不变；3）可能影响卡的代工厂商，训练卡25年增速放缓，其代工厂寻求其他产能合作。 ... PC版：手机版：

中国公司开始大量订购NVIDIA H20芯片

中国公司开始大量订购NVIDIA H20芯片此前，由于美国对华出口限制的升级，加上H20芯片的性能阉割，许多中国公司转向了国产Ascend 910B芯片。然而，由于Ascend 910B芯片供应问题，以及其生产良率的传闻，英伟达H20 AI GPU重新获得了市场的关注。尽管H20在性能上不及英伟达的H100，其AI算力只有H100的不到15%，甚至部分性能不及Ascend 910B，但在国产AI芯片供应不足的情况下，中国厂商的选择显得有些无奈。尽管H20可能不是最理想的选择，但在当前的市场环境下，它提供了一个可行的解决方案，以维持公司在AI领域的竞争力。 ... PC版：手机版：

中国特供版英伟达 H20 AI 芯片开始接受预订

中国特供版英伟达 H20 AI 芯片开始接受预订熟悉内情的消息人士称，英伟达已开始接受经销商预订中国特供版芯片，定价与竞争对手华为的产品持平。H20 显卡是英伟达为中国市场开发的三款显卡中最强大的一款。H20 的计算能力自然会低于英伟达的旗舰 H100 AI 芯片和 H800。两位消息人士说，近几周，英伟达开始接受中国经销商的 H20 订单，每张显卡价格在1.2万至1.5万美元之间。其中一位消息人士称，一些经销商已开始对芯片进行大幅加价兜售，价格约为 11 万元人民币 (15,320 美元)。两位消息人士称，相比之下，华为 910B 的售价约为 12 万元人民币。

英伟达对华“特供”的H20、RTX4090D将受限

英伟达对华“特供”的H20、RTX4090D将受限（1）芯片的I/O带宽传输速率大于或等于600 Gbyte/s；（2）数字处理单元/原始计算单元每次操作的比特长度乘以TOPS 计算出的算力之和大于或等于4800TOPS。”此举，直接导致了英伟达的A100、H100等高性能AI芯片无法对华出口。随后，英伟达为了挽回中国市场，针对中国市场推出了符合美国限制政策的AI芯片：A100和A800，主要是降低了互联速率。但是，在2023年10月17日，美国政府又推出了新的限制规则，进一步收紧了限制范围：（1）ECCN 3A090a针对最高性能芯片，集成电路中包含一个或多个处理单元达到以下任一标准：a) 综合运算性能（Total Processing Performance，TPP）达到4800，或b) 综合运算性能达到1600，同时“性能密度”(Performance Density，PD)达到5.92。（2）ECCN 3A090b针对次高性能芯片，集成电路中包含一个或多个处理单元达到以下任一标准：a) 综合运算性能达到2400但低于4800，性能密度达到1.6但低于5.92；b) 综合运算性能达到1600，性能密度达到3.2但低于5.92。但凡只要在上述两项性能标准范围内的美国芯片都将会受到限制。这也直接导致了英伟达针对中国市场推出的A100和A800芯片的对华出口受限，英伟达在A100和A800这两款芯片上的投资也是损失不小。此外，英伟达L40S、高端显卡RTX 4090等产品也受到了限制。不过，英伟达依旧不甘心放弃中国这个庞大的AI芯片市场。于是在去年四季度，英伟达又针对中国市场开发出了符合美国最新限制政策的四款AI芯片，包括 HGX H20、L20 PCle 和 L2 PCle。同时还开发了符合新规的高端显卡RTX 4090 D。从公布的参数来看，其中最强的H20的FP16、INT8等主要算力参数仅为A100的不足1/2，更是仅为H100的约1/7；L20的主要算力参数则相较于之前的L40、L40S分别下降约1/3、2/3。此前NVIDIA内部人士在访谈中也承认，H20单卡算力仅有H100的20%，相比某国产芯片，其性能也只有其60%多。此外，RTX 4090 D的核心数量相较RTX 4090也减少约11%，整体性能或降低了10%！显然，英伟达这些最新针对中国市场定制的产品性能被大幅阉割，使得市场大多对其性能表现、性价比持悲观或怀疑态度。不过，即便如此，美国方面似乎还是不放心。近日，美国又公布了将于今年4月4日生效的新的限制规则，4A003类目下 “数字计算机”、“电子组件”及其相关设备和“组件”，对于所有目的地（除EAR第740部分第1号补充文件国家组E:1或E:2中的国家外），“调整后峰值性能”（“APP”）超过70 Weighted TeraFLOPS（WT，每秒计算万亿次浮点运算，主要针对GPU性能，CPU和NPU主要提供定点/整数算力）的计算机和4A003.c中所述的“电子组件”都需要许可证（NLR）。这里需要补充说明的是，在AI训练方面，通常使用浮点格式FP16和FP32,因为它们具有足够高的精度。而在AI推理方面则通常使用整数数据格式INT8和INT4。也就是说，现有的美国厂商的计算机产品或组件，如果其综合浮点算力超过70 TFLOPS，则需要申请许可证才能出口。而这似乎是针对的是英伟达此前针对中国市场新推出的RTX 4090-D以及H20。数据显示，RTX 4090-D的FP16/FP32算力为74TFLOPS，H20的TF32算力为74 TFLOPS（L20的FP32/16算力为60TFLOPS不到）。这也意味着，英伟达RTX 4090-D以及H20对华出口可能需要申请许可，至于是否能够获批，则可能需要“逐案审查”（case-by-case review）。虽然也有国内媒体报道称，该政策可能将会限制到高性能的AI PC产品。但是，芯智讯认为，目前AMD、英特尔、高通、苹果等厂商所推出的集成了AI内核的面向AI PC的处理器，其浮点运算能力目前仍比较有限，更多还是提升整数运算能力，并不会受到新规限制。比如英特尔在去年底推出的Meteor Lake芯片（Core Ultra）基于其AI引擎、NPU、CPU和GPU，可提供34TOPS（注意不是FLOPS）的算力。不过，以上只是笔者对于该规则的解读。目前英伟达官方面尚未有相关信息公布。芯智讯也有咨询英伟达中国区相关负责人，但对方并未对此进行回应。值得注意的是，美国商务部长雷蒙多在12月2日举办的“里根国防论坛”（Reagan National Defense Forum）上曾表示，即便会让企业难做，美国政府仍将持续修改（change constantly）先进芯片的出口管制，因为“科技会变、对手也会变，我们必须跟上”。雷蒙多指出，就算业者重新设计出一款能规避现有法令的芯片，只要被关注国家将之用来发展AI，“我第二天就会立刻出手控管”（I’m going to control it the very next day）。针对雷蒙多发言，英伟达CEO黄仁勋（Jensen Huang）曾于12月6日在新加坡召开的记者会上表示，英伟达一直都在积极配合美国政府，打造符合法规的产品。“我们打算继续配合美国政府，开发符合新规定的全新系列产品”。黄仁勋之前还曾表示，美国对华半导体出口的限制，也进一步刺激了中国努力发展半导体产业的决心，中国大陆目前已有数十家公司正在开发可与英伟达产品竞争的技术，这对英伟达在中国市场的发展也很不利。过去多年来，中国市场约占英伟达营收的20%。 ... PC版：手机版：

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人