新款英伟达AI芯片在服务器中有过热问题

新款英伟达AI芯片在服务器中有过热问题 英伟达公司正在努力解决与其备受期待的人工智能 Blackwell GPU 相关的新问题:如何防止处理器在其设计的定制服务器机架中连接在一起时过热。据一直致力于解决这一问题的英伟达员工以及多位知情客户和供应商称,近几个月来,英伟达公司已多次要求供应商更改机架设计,以解决过热问题。反复更改设计的消息引发了客户的担忧,他们担心使用这些机架的时间可能会延迟。知情人士透露,当 Blackwell GPU 连接到可容纳多达72个处理器的服务器机架上时,就会出现过热现象。英伟达公司发言人表示:“英伟达正在与领先的云服务提供商合作,这是我们工程团队和流程不可或缺的一部分。工程迭代是正常的,也是预期的。” The Information、路透社-电报频道- #娟姐新闻:@juanjienews

相关推荐

封面图片

部署 B200 GPU 出现摩擦:微软要求自家定制服务器机架,英伟达希望整机出货

部署 B200 GPU 出现摩擦:微软要求自家定制服务器机架,英伟达希望整机出货 双方的“摩擦”最终以英伟达的妥协告终,英伟达最终让步,让微软为其 B200 AI GPU 设计自己的定制服务器机架,但这可能不是两家巨头之间的最后一次分歧。

封面图片

英伟达计划推出采用 ARM 和 Blackwell 内核的 AI PC 芯片

英伟达计划推出采用 ARM 和 Blackwell 内核的 AI PC 芯片 业内有传言称,英伟达正在准备推出一款将下一代 Arm 内核与其 Blackwell GPU 架构相结合的芯片,Windows on ARM 领域的竞争可能会愈演愈烈。高通一直是推动基于 Arm 的 Windows 系统的主要芯片制造商。但高通与微软独占协议将于今年到期,微软将会向联发科等其他厂商开放授权。据悉,英伟达正在准备一款片上系统,将 Arm 的 Cortex-X5 核心设计与基于其最近推出的 Blackwell 架构的 GPU 相结合。Arm 没有回应置评请求,英伟达称“没有什么可宣布的”。

封面图片

微软围绕AI服务器数据传输打造英伟达网卡的替代产品

微软围绕AI服务器数据传输打造英伟达网卡的替代产品 微软打造英伟达网卡的替代产品,以降低在AI服务器领域对英伟达的依赖程度。产品将用于加速数据在服务器之间的传输。(The Information) 标签: #微软 #英伟达 #AI 频道: @GodlyNews1 投稿: @GodlyNewsBot

封面图片

NVIDIA Blackwell B200 AI加速器下季度开始出货 单价是传统服务器的10倍

NVIDIA Blackwell B200 AI加速器下季度开始出货 单价是传统服务器的10倍 据台湾《经济日报》报道,英伟达(NVIDIA)将于2024年第三季度至第四季度"小批量"出货其下一代GB200人工智能服务器,并将于2025年第一季度开始大规模出货。另据报道,每台 Blackwell 服务器的单价将是传统服务器的 10 倍。我们之前曾报道过每块 Blackwell GPU 的价格应高达 3.5 万美元,而一组 AI 服务器的价格可能高达 300 万美元。英伟达 DGX GB200"Blackwell"AI 服务器分为三个部分:DGX NVL72、NVL32 和 HGX B200。其中配置最高的是 NVL72,配备了 72 个英伟达 Blackwell B200 AI GPU 和 Grace Hopper CPU。据悉,富士康的子公司 Fii 将在下一季度出货部分 DGX GB200"NVL72",而该公司早在 4 月份就已向客户交付了 NVL32 对应产品,因此该公司是首批向业界出货 Blackwell 产品的公司之一。除此之外,广达等合作伙伴也有望在本季度向客户交付英伟达的 Blackwell GB200 AI 服务器。虽然两家公司还没有透露谁是"独家"买家,但我们或许对此有所了解。我们曾报道过 Meta 已经下单了基于 Blackwell 的产品,包括 B200 AI GPU 和 AI 服务器,所以这可能是大部分产能的去向。微软和 OpenAI 也对英伟达的 Blackwell 表示了兴趣。 ... PC版: 手机版:

封面图片

超微获得NVIDIA Blackwell AI服务器巨额订单 占总供应量的25%

超微获得NVIDIA Blackwell AI服务器巨额订单 占总供应量的25% 在人工智能的热潮中,SMCI(超微计算机公司)在相当长的一段时间里都是市场的头条新闻。该公司不仅股价表现优异,同比增长 182%,而且还成功地与英伟达(NVIDIA)建立了合作关系,成为市场的焦点。SMCI 专注于专为人工智能工作负载设计的高性能服务器和存储系统,在过去几个季度里,订单大量涌入。现在,该公司正寻求将其业务扩展到更先进的NVIDIA Blackwell AI GPU 架构,因为有报道称超微计算机公司已经收到了以 Blackwell 为核心的 AI 服务器机架的巨额订单。台湾《经济日报》报道称,超微计算机公司(SMCI)准备出货 25% 的英伟达(NVIDIA)基于 GB200 的 Blackwell AI 服务器,总量将达到 10000 台以上。这一次,NVIDIA似乎赋予了 SMCI 更多的责任,如果进展顺利,最终将转化为巨大的经济效益。这些系统包括:NVIDIA HGX B100 8-GPU 和 HGX B200 8-GPU 系统包含 10 个 GPU 的 5U/4U PCIe GPU 系统SuperBlade 在 8U 机柜中最多可配备 20 个 B100 GPU,在 6U 机柜中最多可配备 10 个 B100 GPU2U Hyper 最多可配备 3 个 B100 GPU配备最多 4 个 B100 GPU 的 Supermicro 2U x86 MGX 系统为了与富士康和广达等巨头竞争,SMCI 决定积极拓展供应链,将 Argosy Research 和 Auras Technology 等公司纳入其中。自今年年初以来,该公司已经积累了NVIDIA公司的Blackwell GB200 AI GPU,以确保供应链流程顺畅,最终保证在竞争中占据优势。此外,超微计算机公司已经在水冷要件方面进行了投资,据说这对较新的 Blackwell AI 服务器至关重要。以下是超微服务器阵容的部分特点:超微公司的NVIDIA HGX B200 8GPU 风冷和液冷系统可实现最高的生成式人工智能训练性能。该系统采用 8 个英伟达 Blackwell GPU,通过第五代 NVLink 与 1.5TB 高带宽内存池(速度达 60TB/s)连接,以加快人工智能训练工作负载的速度。超微最畅销的人工智能训练系统配备NVIDIA HGX H100/H200 8-GPU 的 4U/8U 系统,将支持英伟达即将推出的 HGX B100 8-GPU。超微机架级解决方案采用 GB200 Superchip 系统作为服务器节点,每个节点配备 2 个 Grace CPU 和 4 个 NVIDIA Blackwell GPU。超微的直接到芯片液冷技术最大限度地提高了密度,在一个 44U ORV3 机架上可安装 72 个 GB200 192GB GPU(每个 GPU 的 TDP 为 1200W)。由此看来,SMCI 希望这次以更积极的方式回归,通过与NVIDIA的密切关系,只要他们能保持供应链和产品质量,就可以继续保持现有的市场地位。 ... PC版: 手机版:

封面图片

“阉割版”AI芯片,也能让英伟达赚疯?

“阉割版”AI芯片,也能让英伟达赚疯? 不过,H20在中国市场的实际情况,可能并没有如咨询机构预估的那般乐观。一位服务器经销商向虎嗅表示,目前一台H20八卡服务器,定价大约在120万元,而性能大幅领先的满配H100 NVLink版本的八卡服务器价格为270万元上下,而且是现货。尽管后者早早被列入禁止对华出售的名单中,但在非官方渠道中,这款芯片的货源基本没有断过,甚至在今年二季度H200开售后,这款芯片的价格还下跌了约10%。“无论怎么看,H20的性价比都还是太低。”这位服务器经销商提到,即便是同国内的解决方案相比,H20都难言有多大的竞争优势。“阉割版”,但还挺良心的?与同系列芯片不同,H20是一枚“赶工”性质非常明显的产品。在去年10月美国升级芯片禁令后,原本就被视为阉割版芯片的A800/H800,甚至是消费级产品RTX4090都被纳入禁令的管制范围。但仅在一个月后,就有台湾地区媒体报道称,英伟达向代工厂下了H20芯片的订单。在如此短的时间内,英伟达不可能重新设计一款芯片,最大的可能是基于既有型号进行有针对性的调整。比如新规中取消了将“互联带宽”作为限制芯片的识别参数,英伟达就将H20的HBM3显存容量拉高到96Gb,使显存带宽提高到4.0Tb/s;又比如新规新增了“性能密度”的限制,英伟达就向算力规格大砍一刀,使其理论性能仅为296TFLOP,相当于H100芯片的15%。至于那些新规没有提到的,比如PCIe Gen5扩展卡、八路HGX,英伟达全部保留了下来。值得一提的是,H20还有非常高的卡间互联速度,其NV Link带宽达到900Gb/s,很适合组建大规模集群。但这些特征组合在一起,却形成了一个很尴尬的事实:在算力大幅削减的情况下,H20的BOM很可能跟H100齐平,甚至高于后者。原因在于,存储颗粒一直是高性能计算卡成本的“大头”,比如H100芯片中,HBM3颗粒的采购就要占到60%左右,而在H20芯片上,英伟达又不得不为其配备更高规格的显存容量,以弥补算力不足的缺陷。基本可以断定,H20在英伟达高性能计算卡中,属于利润率最低的存在。相较于1.2-1.3万美元的售价,与它同成本的H100目前定价为2.5-3万美元。从这个角度来看,H20算是英伟达的一款良心产品了。英伟达自然不甘心于让一款单品拉低公司整体的毛利表现,但自去年芯片禁令升级后,英伟达四季度在中国大陆的营收,从上一季度的40.3亿降低至19.46亿,其中国区数据中心营收占比也从22%滑落至8%,英伟达急需用一款产品去稳住在中国的市场份额。H20就是英伟达拿出的诚意之作,但还是那个问题,H20的算力实在羸弱,这个硬伤无法被忽视。华为或与之一战?实际上,英伟达曾在今年2月进行过一次官方调价,在调价之前H20芯片的价格为2.3万美元,尽管英伟达表示降价的原因是“供货充足”,但如此大幅的价格调整,主要原因大概率还是销量没有达到预期。“国内大厂基本不会考虑H20服务器,都是闭眼买H100,而那些体量相对小的厂商也认为有点划不来。”有服务器经销商向笔者算了一笔账,现在H100的服务器单机租赁费用大概是8-9万元/月,而算力仅有前者六分之一的H20服务器价格为120万元上下,即便不考虑算力损耗的问题,厂商也需要购买6台H20服务器,才能与H100服务器相齐平。这样一对比,H20虽然是英伟达利润率最低的产品,但对于客户来说,实在称不上有性价比。而对于英伟达来说,还有一个不可忽视的因素是国内同类型竞品,比如华为升腾910B。与H20相比,910B在单卡算力(FP16)上几乎相当于前者的一倍。相应地,910B价格也要高于H20,服务器经销商向笔者表示,目前910B的服务器价格已经超过170万元。抛开价格,从实际表现来看,二者的竞争互有胜负手。910B强在算力和能效比上,H20则胜在软件生态与互联上。最直接的例子就是,H20兼容所有的英伟达H系列卡,而且具备极高的访存能力,在搭建算力集群时,能够更好地避免算力损耗。当然,这个集群规模是有上限的,比如各地筹划的“万P计算集群”,如果用H20搭建,那么0.15P单卡运算能力就意味着十万颗级别的GPU,组网难度极大。另外一个值得关注的问题是,英伟达与华为谁能更加稳定地供应产品?此前,就有业内人士向笔者提到过,对于那些急于购买搭建算力中心的厂商来说,H20可能是更现实的选择。一方面,英伟达的软件生态更加成熟,厂商的适配工作量要小得多;另一方面,目前无论是政策还是资本方,都对于算力中心的芯片国产化率有一定要求,910B的需求量非常大,相应地交付周期也比较长。这一说法笔者也在服务器经销商处得到了验证,对方向笔者表示,“在英伟达调价前,行业内客户对于910B的咨询要远大于H20,但现在也有客户对H20展现出了兴趣,因为有充足的现货。”有趣的是,二者可能并不是完全意义上的竞争关系,因为有业内人士向笔者表示,在他所在的公司,910B和H20被归为不同分级,在采购上并不冲突。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人