谁卡了英伟达的脖子?

谁卡了英伟达的脖子?如果缺货继续延续到今年年底,英伟达的业绩恐怕会更加震撼。H100的短缺不禁让人想起几年前,GPU因为加密货币暴涨导致缺货,英伟达被游戏玩家骂得狗血淋头。不过当年的显卡缺货很大程度上是因为不合理的溢价,H100的缺货却是产能实在有限,加价也买不到。换句话说,英伟达还是赚少了。在财报发布当天的电话会议上,“产能”理所当然地成为了最高频词汇。对此,英伟达措辞严谨,不该背的锅坚决不背:“市场份额方面,不是仅靠我们就可以获得的,这需要跨越许多不同的供应商。”实际上,英伟达所说的“许多不同的供应商”,算来算去也就两家:SK海力士和台积电。HBM:韩国人的游戏如果只看面积占比,一颗H100芯片,属于英伟达的部分只有50%左右。在芯片剖面图中,H100裸片占据核心位置,两边各有三个HBM堆栈,加起面积与H100裸片相当。这六颗平平无奇的内存芯片,就是H100供应短缺的罪魁祸首之一。HBM(HighBandwidthMemory)直译过来叫高宽带内存,在GPU中承担一部分存储器之职。和传统的DDR内存不同,HBM本质上是将多个DRAM内存在垂直方向堆叠,这样既增加了内存容量,又能很好的控制内存的功耗和芯片面积,减少在封装内部占用的空间。“堆叠式内存”原本瞄准的是对芯片面积和发热非常敏感的智能手机市场,但问题是,由于生产成本太高,智能手机最终选择了性价比更高的LPDDR路线,导致堆叠式内存空有技术储备,却找不到落地场景。直到2015年,市场份额节节败退的AMD希望借助4K游戏的普及,抄一波英伟达的后路。在当年发布的AMDFiji系列GPU中,AMD采用了与SK海力士联合研发的堆叠式内存,并将其命名为HBM(HighBandwidthMemory)。AMD的设想是,4K游戏需要更大的数据吞吐效率,HBM内存高带宽的优势就能体现出来。当时AMD的RadeonR9FuryX显卡,也的确在纸面性能上压了英伟达Kepler架构新品一头。但问题是,HBM带来的带宽提升,显然难以抵消其本身的高成本,因此也未得到普及。直到2016年,AlphaGo横扫冠军棋手李世石,深度学习横空出世,让HBM内存一下有了用武之地。深度学习的核心在于通过海量数据训练模型,确定函数中的参数,在决策中带入实际数据得到最终的解。理论上来说,数据量越大得到的函数参数越可靠,这就让AI训练对数据吞吐量及数据传输的延迟性有了一种近乎病态的追求,而这恰恰是HBM内存解决的问题。2017年,AlphaGo再战柯洁,芯片换成了Google自家研发的TPU。在芯片设计上,从第二代开始的每一代TPU,都采用了HBM的设计。英伟达针对数据中心和深度学习的新款GPUTeslaP100,搭载了第二代HBM内存(HBM2)。随着高性能计算市场的GPU芯片几乎都配备了HBM内存,存储巨头们围绕HBM的竞争也迅速展开。目前,全球能够量产HBM的仅有存储器三大巨头:SK海力士、三星电子、美光。SK海力士是HBM发明者之一,是目前唯一量产HBM3E(第三代HBM)的厂商;三星电子以HBM2(第二代HBM)入局,是英伟达首款采用HBM的GPU的供应商;美光最落后,2018年才从HMC转向HBM路线,2020年年中才开始量产HBM2。其中,SK海力士独占HBM50%市场份额,而其独家供应给英伟达的HBM3E,更是牢牢卡住了H100的出货量:H100PCIe和SXM版本均用了5个HBM堆栈,H100SSXM版本可达到6个,英伟达力推的H100NVL版本更是达到了12个。按照研究机构的拆解,单颗16GB的HBM堆栈,成本就高达240美元。那么H100NVL单单内存芯片的成本,就将近3000美元。成本还是小问题,考虑到与H100直接竞争的GoogleTPUv5和AMDMI300即将量产,后两者同样将采用HBM3E,陈能更加捉襟见肘。面对激增的需求,据说SK海力士已定下产能翻番的小目标,着手扩建产线,三星和美光也对HBM3E摩拳擦掌,但在半导体产业,扩建产线从来不是一蹴而就的。按照9-12个月的周期乐观预计,HBM3E产能至少也得到明年第二季度才能得到补充。另外,就算解决了HBM的产能,H100能供应多少,还得看台积电的脸色。CoWoS:台积电的宝刀分析师RobertCastellano不久前做了一个测算,H100采用了台积电4N工艺(5nm)生产,一片4N工艺的12寸晶圆价格为13400美元,理论上可以切割86颗H100芯片。如果不考虑生产良率,那么每生产一颗H100,台积电就能获得155美元的收入[6]。但实际上,每颗H100给台积电带来的收入很可能超过1000美元,原因就在于H100采用了台积电的CoWoS封装技术,通过封装带来的收入高达723美元[6]。每一颗H100从台积电十八厂的N4/N5产线上下来,都会运往同在园区内的台积电先进封测二厂,完成H100制造中最为特别、也至关重要的一步——CoWoS。要理解CoWoS封装的重要性,依然要从H100的芯片设计讲起。在消费级GPU产品中,内存芯片一般都封装在GPU核心的外围,通过PCB板之间的电路传递信号。比如下图中同属英伟达出品的RTX4090芯片,GPU核心和GDDR内存都是分开封装再拼到一块PCB板上,彼此独立。GPU和CPU都遵循着冯·诺依曼架构,其核心在于“存算分离”——即芯片处理数据时,需要从外部的内存中调取数据,计算完成后再传输到内存中,一来一回,都会造成计算的延迟。同时,数据传输的“数量”也会因此受限制。可以将GPU和内存的关系比作上海的浦东和浦西,两地间的物资(数据)运输需要依赖南浦大桥,南浦大桥的运载量决定了物资运输的效率,这个运载量就是内存带宽,它决定了数据传输的速度,也间接影响着GPU的计算速度。1980年到2000年,GPU和内存的“速度失配”以每年50%的速率增加。也就是说,就算修了龙耀路隧道和上中路隧道,也无法满足浦东浦西两地物资运输的增长,这就导致高性能计算场景下,带宽成为了越来越明显的瓶颈。CPU/GPU性能与内存性能之间的差距正在拉大2015年,AMD在应用HBM内存的同时,也针对数据传输采用了一种创新的解决方案:把浦东和浦西拼起来。简单来说,2015年的Fiji架构显卡,将HBM内存和GPU核心“缝合”在了一起,把几块小芯片变成了一整块大芯片。这样,数据吞吐效率就成倍提高。不过如上文所述,由于成本和技术问题,AMD的Fiji架构并没有让市场买账。但深度学习的爆发以及AI训练对数据吞吐效率不计成本的追求,让“芯片缝合”有了用武之地。另外,AMD的思路固然好,但也带来了一个新问题——无论HBM有多少优势,它都必须和“缝芯片”的先进封装技术配合,两者唇齿相依。如果说HBM内存还能货比三家,那么“缝芯片”所用的先进封装,看来看去就只有台积电一家能做。CoWoS是台积电先进封装事业的起点,英伟达则是第一个采用这一技术的芯片公司。CoWoS由CoW和oS组合而来:CoW表示ChiponWafer,指裸片在晶圆上被拼装的过程,oS表示on Substrate,指在基板上被封装的过程。传统封装一般只有oS环节,一般在代工厂完成晶圆制造后,交给第三方封测厂解决,但先进封装增加的CoW环节,就不是封测厂能解决的了的。以一颗完整的H100芯片为例,H100的裸片周围分布了多个HBM堆栈,通过CoW技术拼接在一起。但不只是拼接而已,还要同时实现裸片和堆栈间的通信。台积电的CoW区别于其他先进封装的亮点在于,是将裸片和堆栈放在一个硅中介层(本质是一块晶圆)上,在中介层中做互联通道,实现裸片和堆栈的通信。类似的还有英特尔的EMIB,区别在于通过硅桥实现互联。但带宽远不及硅中介层,考虑到带宽与数据传输速率息息相关,CoWoS便成了H100的唯一选择。这便是卡住H100产能的另一只手。虽然CoWoS效果逆天,但4000-6000美元/片的天价还是拦住了不少人,其中就包括富可敌国的苹果。因...PC版:https://www.cnbeta.com.tw/articles/soft/1380411.htm手机版:https://m.cnbeta.com.tw/view/1380411.htm

相关推荐

封面图片

SK海力士和台积电 卡英伟达脖子的幕后玩家

SK海力士和台积电卡英伟达脖子的幕后玩家根据GPUUtils的推测,保守估计,英伟达GPU潜在订单总额可能超过200亿美元,旗舰GPUH100的供给缺口高达43万张。英伟达CEO黄仁勋也直言:“我们目前的出货量远远不能满足需求。”老黄的苦衷,就在于卡住英伟达脖子的两项关键技术——CoWoS封装和HBM内存。SK海力士和台积电卡英伟达脖子的幕后玩家去年9月推出的H100,是英伟达产品矩阵中最先进的GPU。相较于前任A100,它的价格翻了1.5-2倍左右,但性能却有了质的飞跃:推理速度提升3.5倍,在训练速度提升2.3倍;如果用伺服器丛集运算的方式,训练速度更是能提高到9倍。在LLM训练中,它能让原本一个星期的工作量,缩短为20个小时。一块英伟达H100,主要由三个部分构成:中心的H100裸片两侧各有三个HBM堆栈,最外层则是台积电的2.5DCoWoS封装框。三个部件里,核心的逻辑芯片供应是最简单的,它主要产自台积电台南18号工厂,使用4N工艺节点(实际是5nm+)。由于5nm+下游的PC、智能手机和非AI相关数据中心芯片市场疲软,目前台积电5nm+产能利用率不到70%。因此逻辑芯片供应没有问题。英伟达最主要的供应缺口,来自逻辑芯片两侧的6块HBM(HighBandwidthMemory,高带宽内存),和把逻辑芯片、HBM连接起来的CoWoS封装(ChiponwaferonSubstrate,芯片、晶圆、基板封装)。HBM是一种基于3D堆叠工艺的DRAM内存芯片。其技术原理,就是将多个DDR芯片,垂直堆叠在一起,通过硅通孔(TSV)和微凸块(μBmps)技术,把芯片相互连接,从而突破了现有的性能限制,大大提高了存储容量,实现更高带宽、更高位宽、更低功耗、更小尺寸的DDR组合阵列。内存芯片对GPU性能至关重要,尤其是训练AI所用的高性能GPU。推理和训练工作负载是内存密集型任务。随着AI模型中参数数量的指数级增长,仅权重一项就将模型大小推高到了TB级。因此,从内存中存储和检索训练和推理数据的能力决定了GPU性能的上限。AI大模型和应用越多,越有利于HBM制造商。从整体HBM市场来看,两大韩国存储巨头SK海力士及三星占绝对垄断地位,二者合计市占率在90%左右。英伟达H100上面使用的HBM3由SK海力士独家供应,这是目前最先进的HBM产品。HBM3工艺复杂、成本高昂、产能有限,2022年,在整个HBM市场中,HBM3仅占约8%的市场份额。作为全球唯一有能力量产HBM3的公司,SK海力士牢牢卡住了英伟达H100的脖子;而前代A100/A800以及AMD的MI200使用的则是落后一代的HBM2E技术。不过,当前存储芯片业界正处于HBM2E向HBM3换代的过程中。据Trendforce数据,预计到2024年,HBM3市占率将超过60%,三星、美光等存储芯片厂都在积极布局,都对SK海力士的市场份额虎视眈眈。而先进封装则是一项与HBM内存相辅相成的技术——要用HBM堆栈,必须用先进封装把内存和GPU连接起来。H100上使用的台积电CoWoS先进封装,是一项2.5D封装技术。主流的2D封装方案,是在基板(Substrate)的表面水平安装所有芯片和无源器件的集成方式,类似于平面的拼图。而2.5D先进封装,则可以类比为横向排列的积木。多层DDR芯片堆叠的HBM堆栈,必须依赖先进封装才能实现。台积电的CoWoS先进封装方案,由CoW和oS组合而来:先将芯片通过ChiponWafer(CoW)的封装制程连接至硅晶圆,再把CoW芯片与基板连接(onSubstrate),整合成CoWoS。CoWoS技术大大提高了互联密度以及数据传输带宽,同时缩小了封装尺寸,但工艺也非常复杂,因此主要用于高端市场。据媒体报道,目前台积电CoWoS封装月产8000片,今年底有望提升至11000片,2024年底有望实现14500至16600片左右的月产能,也就是说,想要提升一倍的产量,几乎需要一年半的时间。摩尔定律见顶先进封装将成为主流类似HBM这样以多块芯片堆叠、再通过先进封装粘合起来的解决方案,已成为目前市场上高端芯片的主流设计思路。背后的原因很简单:先进制程目前已经迭代到7nm、5nm、3nm,技术节点越来越小,生产技术与制造工序越来越复杂,集成电路制造设备的资本投入也就越来越高。以5nm及更小的制程为例。在这一阶段,受波长限制,普通光刻机的精度已无法满足工艺要求,企业必须转向昂贵的EUV光刻机,一台的售价就高达14亿人民币。再加上刻蚀和薄膜沉积等设备,5nm制程的设备支出可达31亿美元,是14nm的2倍以上,28nm的4倍左右。为了成本效益,芯片制造商只能另辟蹊径,从单纯制程工艺的提升,转向通过系统级芯片设计,来提升晶体管密度和性能。另一方面,过去10年全球数据运算量爆炸式增长,已超越过去40年总和。随着消费电子与车用芯片的需求日益提高,就算芯片制程能达到摩尔定律理论上的物理极限(1nm),仍然无法满足未来产业应用的需求。而先进封装,因为能同时提高产品性能和降低成本,所以成了后摩尔时代的破局解法。生成式AI催生的庞大需求,已经在加速传统封装向先进封装的迭代。摩根士丹利指出,AI浪潮正在推动2.5D和3D先进封装技术的大规模应用,到2030年,先进封装将占据整个封装市场60%以上的份额。据FutureMarketInsights测算,当前规模约310亿美元的先进封装市场,将在未来十年内以7.2%的CAGR不断扩张。摩根士丹利分析师还指出,由于AI芯片增长超显著预期,因此3D/2.5D先进封装预计将以极快的速度增长。2021-2028年的CAGR将达到22%左右。卡英伟达脖子的厂商已经赚翻了HBM内存和先进封装领域的两大龙头——SK海力士和台积电,现在已经尝到了甜头。TrendForce数据显示,尽管在消费电子市场低迷影响下,内存芯片市场出货量和平均销售单价均出现下滑,但HBM产品却在逆势增长,价格一路水涨船高。有媒体报道称,2023年开年后三星、SK海力士两家存储大厂HBM订单快速增加。SK海力士独家供应的HBM3价格更是上涨5倍。作为原本单位售价就远高于其他规格内存芯片的高毛利产品,HBM3利润之丰厚堪称恐怖。TrendForce预计,AI浪潮带动下,2024年整体HBM营收将达到89亿美元,年增127%。与此同时,随着英伟达H100、AMDMI300的热销,台积电先进封装同样供不应求。摩根士丹利分析师表示:根据我们的代工厂供应链检查,单个CoWoS-S晶圆(及相关工艺)的售价为6,000-12,000美元,具体取决于客户/项目的规模和设计复杂性。根据台积电在Q2财报会议上公开的信息,预计2023年总收入的6-7%将来自先进封装和测试。我们估计CoWoS今年可能为台积电贡献约10亿美元的收入。由于台积电不断加码CoWoS产能(根据台积电Q2财报电话会上提供的数据,产能将在2024年翻一番),以及当前强劲的AI芯片需求,这一数字可能会进一步增长。因此,我们预计2023-2027年台积电CoWoS收入的CAGR将达到40%。...PC版:https://www.cnbeta.com.tw/articles/soft/1386673.htm手机版:https://m.cnbeta.com.tw/view/1386673.htm

封面图片

谁捏住了英伟达的命门?

谁捏住了英伟达的命门?根源在于,GPU零部件产能严重不足,继而影响供应。以H100芯片为例,其最关键的零部件主要是:1)逻辑芯片;2)HBM存储芯片;3)CoWoS封装。核心的逻辑芯片尺寸为814平方毫米,主要由台积电最先进的台南18号工厂供应,使用的工艺节点则是“4N”,实际是5nm+。由于PC、智能手机和非AI相关数据中心芯片市场疲软,目前台积电5nm+产能利用率不到70%。因此逻辑芯片供应没有问题。在H100最中心的逻辑芯片旁边,是6块HBM(HighBandwidthMemory),它一种基于3D堆叠工艺的DRAM内存芯片,像摩天大厦中的楼层一样可以垂直堆叠,将多个DDR芯片堆叠在一起,通过硅通孔(TSV)连接,并使用TCB键合,实现更高带宽、更高位宽、更低功耗、更小尺寸。内存芯片对GPU性能至关重要,尤其是训练AI所用的高性能GPU。推理和训练工作负载是内存密集型任务。随着AI模型中参数数量的指数级增长,仅权重一项就将模型大小推高到了TB级。因此,从内存中存储和检索训练和推理数据的能力决定了GPU性能的上限。作为HBM的先驱,HBM供应几乎由韩国内存芯片厂商SK海力士一家垄断,市占率超过95%,也是唯一有能力生产H100各型号上所使用的HBM3的厂商。HBM3供应目前也相当紧俏,此前有媒体报道称,英伟达和AMD要求SK海力士提供尚未量产的下一代HBM3E芯片的样品。英伟达已要求SK海力士尽快供应HBM3E,并愿意支付“溢价”。不过,随着存储芯片大厂纷纷投入重金提升HBM3产能,供应紧张的状况或在今年有所缓解。近期有媒体报道称,在通过最终质量测试后,三星电子8月31日与英伟达签署了协议,将向后者供应HBM3。最早将于下周开始供应。早些时候,花旗亦在报告中透露,三星将在四季度开始向英伟达供应HBM3。另一大产能瓶颈,在于CoWoS封装。HBM和CoWoS封装两种技术相辅相成。HBM对焊盘数量和短线迹长度的要求很高,这就需要CoWoS先进封装技术来实现PCB甚至封装基板上无法实现的高密度、短连接。目前,几乎所有的HBM都采用CoWoS封装技术。英伟达GPUCoWoS封装的主力供应商是台积电。但由于需求爆炸式增长,台积电产线即便开足马力也难以填补供需鸿沟。为此,台积电已经新开竹南、龙潭和台中三座工厂,其中竹南工厂占地14.3公顷,比其他封装厂的总和还要大。有市场分析认为,台积电正积极加码先进封装产能,以满足市场对其先进封装解决方案的更多需求。另外,英伟达首席财务官ColetteKress近期透露,英伟达在CoWoS封装等关键制程已开发并认证其他供应商产能,预期未来数季供应可逐步攀升,英伟达持续与供应商合作增加产能。...PC版:https://www.cnbeta.com.tw/articles/soft/1381609.htm手机版:https://m.cnbeta.com.tw/view/1381609.htm

封面图片

英伟达计划提高2024年H100 产量至少两倍 需先克服产能瓶颈

英伟达计划提高2024年H100产量至少两倍需先克服产能瓶颈英伟达CUDA架构专为AI和HPC工作负载订制,因此有数百种应用程式只能在英伟达运算GPU运行。虽然亚马逊和Google都有订制AI处理器,AI训练和推理用,但仍必须购买大量英伟达GPU。然而,想增加英伟达H100、GH200GraceHopper及基础产品供应并不容易,英伟达想增加GH100产能,必须先摆脱几个瓶颈。首先,GH100很难大量生产。虽然现在产品产量已相当高,但仍需从台积电取得大量4N晶圆供应,才能让GH100产量提高两倍以上。若要制造200万颗芯片,需3.1万片晶圆,台积电5纳米晶圆总产能每月约15万片,且产能还须由英伟达、AMD、苹果等共享。再来,GH100依赖HBM2E或HBM3记忆体,并使用台积电CoWoS封装,英伟达也需确保供应正常,台积电也在努力满足CoWoS封装需求;第三,基于H100设备使用HBM2E、HBM3或HBM3E存储器,英伟达必须从美光、三星和SK海力士等公司购入足够HBM存储器。最后是英伟达H100显卡或SXM模组必须安装在某个地方,英伟达必须确保合作伙伴的AI服务器也有两到三倍输出。如果英伟达能满足全部H100GPU需求,明年营收会相当可观。...PC版:https://www.cnbeta.com.tw/articles/soft/1379565.htm手机版:https://m.cnbeta.com.tw/view/1379565.htm

封面图片

消息称三星赢得英伟达2.5D封装订单

消息称三星赢得英伟达2.5D封装订单2.5D封装将CPU、GPU、I/O、HBM等芯片水平放置在中介层上。台积电将其2.5D封装技术称为CoWoS,而三星则将其称为I-Cube。英伟达的A100和H100就是采用此类封装技术制造的,英特尔Gaudi也是如此。三星自去年以来一直致力于为其2.5D封装服务争取客户。三星向客户提议,将为AVP团队分配足够的人员,同时提供自己的中介层晶圆设计。消息人士称,三星将为英伟达提供2.5D封装,其中装有四个HBM芯片。他们补充说,三星已经拥有放置8个HBM芯片的封装技术。同时,为了在12英寸晶圆上安装8个HBM芯片,需要16个中介层,这会降低生产效率。因此,当HBM芯片数量达到8个时,三星为此开发了中介层的面板级封装技术。英伟达将订单交给三星,可能是因为其人工智能(AI)芯片的需求增加,这意味着台积电的CoWoS产能将不足。该订单还可能让三星赢得HBM芯片订单。...PC版:https://www.cnbeta.com.tw/articles/soft/1426558.htm手机版:https://m.cnbeta.com.tw/view/1426558.htm

封面图片

英伟达发布新一代 AI 芯片 H200

英伟达发布新一代AI芯片H200H200利用了美光等公司推出的HBM3e内存,提供了141GB内存容量(H100的1.8倍)和4.8TB/s内存带宽(H100的1.4倍)。大型语言模型推理速度方面,GPT-3175B是H100的1.6倍(A100的18倍),LLaMA270B是H100的1.9倍。英伟达同时宣布2024年的H100产量翻倍,2024年第4季度发布基于新一代Blackwell架构的B100。投稿:@ZaiHuaBot频道:@TestFlightCN

封面图片

英伟达新增英特尔为封装服务商 有望月产 30 万颗 H100

英伟达新增英特尔为封装服务商有望月产30万颗H100据科创板日报援引外媒消息,市场日前传出,由于台积电CoWoS先进封装产能不足,促使英伟达新增英特尔为先进封装服务供货商、最快Q2加入,月产能约5000片。另据Tom`sHardware分析,假设良率完美、且英伟达与英特尔是针对H100签订合约,那么英伟达每月可增产超过30万颗H100GPU,可生产30万颗H100芯片。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人