谁卡了英伟达的脖子？

谁卡了英伟达的脖子？如果缺货继续延续到今年年底，英伟达的业绩恐怕会更加震撼。H100的短缺不禁让人想起几年前，GPU因为加密货币暴涨导致缺货，英伟达被游戏玩家骂得狗血淋头。不过当年的显卡缺货很大程度上是因为不合理的溢价，H100的缺货却是产能实在有限，加价也买不到。换句话说，英伟达还是赚少了。在财报发布当天的电话会议上，“产能”理所当然地成为了最高频词汇。对此，英伟达措辞严谨，不该背的锅坚决不背：“市场份额方面，不是仅靠我们就可以获得的，这需要跨越许多不同的供应商。”实际上，英伟达所说的“许多不同的供应商”，算来算去也就两家：SK海力士和台积电。HBM：韩国人的游戏如果只看面积占比，一颗H100芯片，属于英伟达的部分只有50%左右。在芯片剖面图中，H100裸片占据核心位置，两边各有三个HBM堆栈，加起面积与H100裸片相当。这六颗平平无奇的内存芯片，就是H100供应短缺的罪魁祸首之一。HBM（HighBandwidthMemory）直译过来叫高宽带内存，在GPU中承担一部分存储器之职。和传统的DDR内存不同，HBM本质上是将多个DRAM内存在垂直方向堆叠，这样既增加了内存容量，又能很好的控制内存的功耗和芯片面积，减少在封装内部占用的空间。“堆叠式内存”原本瞄准的是对芯片面积和发热非常敏感的智能手机市场，但问题是，由于生产成本太高，智能手机最终选择了性价比更高的LPDDR路线，导致堆叠式内存空有技术储备，却找不到落地场景。直到2015年，市场份额节节败退的AMD希望借助4K游戏的普及，抄一波英伟达的后路。在当年发布的AMDFiji系列GPU中，AMD采用了与SK海力士联合研发的堆叠式内存，并将其命名为HBM（HighBandwidthMemory）。AMD的设想是，4K游戏需要更大的数据吞吐效率，HBM内存高带宽的优势就能体现出来。当时AMD的RadeonR9FuryX显卡，也的确在纸面性能上压了英伟达Kepler架构新品一头。但问题是，HBM带来的带宽提升，显然难以抵消其本身的高成本，因此也未得到普及。直到2016年，AlphaGo横扫冠军棋手李世石，深度学习横空出世，让HBM内存一下有了用武之地。深度学习的核心在于通过海量数据训练模型，确定函数中的参数，在决策中带入实际数据得到最终的解。理论上来说，数据量越大得到的函数参数越可靠，这就让AI训练对数据吞吐量及数据传输的延迟性有了一种近乎病态的追求，而这恰恰是HBM内存解决的问题。2017年，AlphaGo再战柯洁，芯片换成了Google自家研发的TPU。在芯片设计上，从第二代开始的每一代TPU，都采用了HBM的设计。英伟达针对数据中心和深度学习的新款GPUTeslaP100，搭载了第二代HBM内存（HBM2）。随着高性能计算市场的GPU芯片几乎都配备了HBM内存，存储巨头们围绕HBM的竞争也迅速展开。目前，全球能够量产HBM的仅有存储器三大巨头：SK海力士、三星电子、美光。SK海力士是HBM发明者之一，是目前唯一量产HBM3E（第三代HBM）的厂商；三星电子以HBM2（第二代HBM）入局，是英伟达首款采用HBM的GPU的供应商；美光最落后，2018年才从HMC转向HBM路线，2020年年中才开始量产HBM2。其中，SK海力士独占HBM50%市场份额，而其独家供应给英伟达的HBM3E，更是牢牢卡住了H100的出货量：H100PCIe和SXM版本均用了5个HBM堆栈，H100SSXM版本可达到6个，英伟达力推的H100NVL版本更是达到了12个。按照研究机构的拆解，单颗16GB的HBM堆栈，成本就高达240美元。那么H100NVL单单内存芯片的成本，就将近3000美元。成本还是小问题，考虑到与H100直接竞争的GoogleTPUv5和AMDMI300即将量产，后两者同样将采用HBM3E，陈能更加捉襟见肘。面对激增的需求，据说SK海力士已定下产能翻番的小目标，着手扩建产线，三星和美光也对HBM3E摩拳擦掌，但在半导体产业，扩建产线从来不是一蹴而就的。按照9-12个月的周期乐观预计，HBM3E产能至少也得到明年第二季度才能得到补充。另外，就算解决了HBM的产能，H100能供应多少，还得看台积电的脸色。CoWoS：台积电的宝刀分析师RobertCastellano不久前做了一个测算，H100采用了台积电4N工艺（5nm）生产，一片4N工艺的12寸晶圆价格为13400美元，理论上可以切割86颗H100芯片。如果不考虑生产良率，那么每生产一颗H100，台积电就能获得155美元的收入[6]。但实际上，每颗H100给台积电带来的收入很可能超过1000美元，原因就在于H100采用了台积电的CoWoS封装技术，通过封装带来的收入高达723美元[6]。每一颗H100从台积电十八厂的N4/N5产线上下来，都会运往同在园区内的台积电先进封测二厂，完成H100制造中最为特别、也至关重要的一步——CoWoS。要理解CoWoS封装的重要性，依然要从H100的芯片设计讲起。在消费级GPU产品中，内存芯片一般都封装在GPU核心的外围，通过PCB板之间的电路传递信号。比如下图中同属英伟达出品的RTX4090芯片，GPU核心和GDDR内存都是分开封装再拼到一块PCB板上，彼此独立。GPU和CPU都遵循着冯·诺依曼架构，其核心在于“存算分离”——即芯片处理数据时，需要从外部的内存中调取数据，计算完成后再传输到内存中，一来一回，都会造成计算的延迟。同时，数据传输的“数量”也会因此受限制。可以将GPU和内存的关系比作上海的浦东和浦西，两地间的物资（数据）运输需要依赖南浦大桥，南浦大桥的运载量决定了物资运输的效率，这个运载量就是内存带宽，它决定了数据传输的速度，也间接影响着GPU的计算速度。1980年到2000年，GPU和内存的“速度失配”以每年50%的速率增加。也就是说，就算修了龙耀路隧道和上中路隧道，也无法满足浦东浦西两地物资运输的增长，这就导致高性能计算场景下，带宽成为了越来越明显的瓶颈。CPU/GPU性能与内存性能之间的差距正在拉大2015年，AMD在应用HBM内存的同时，也针对数据传输采用了一种创新的解决方案：把浦东和浦西拼起来。简单来说，2015年的Fiji架构显卡，将HBM内存和GPU核心“缝合”在了一起，把几块小芯片变成了一整块大芯片。这样，数据吞吐效率就成倍提高。不过如上文所述，由于成本和技术问题，AMD的Fiji架构并没有让市场买账。但深度学习的爆发以及AI训练对数据吞吐效率不计成本的追求，让“芯片缝合”有了用武之地。另外，AMD的思路固然好，但也带来了一个新问题——无论HBM有多少优势，它都必须和“缝芯片”的先进封装技术配合，两者唇齿相依。如果说HBM内存还能货比三家，那么“缝芯片”所用的先进封装，看来看去就只有台积电一家能做。CoWoS是台积电先进封装事业的起点，英伟达则是第一个采用这一技术的芯片公司。CoWoS由CoW和oS组合而来：CoW表示ChiponWafer，指裸片在晶圆上被拼装的过程，oS表示on Substrate，指在基板上被封装的过程。传统封装一般只有oS环节，一般在代工厂完成晶圆制造后，交给第三方封测厂解决，但先进封装增加的CoW环节，就不是封测厂能解决的了的。以一颗完整的H100芯片为例，H100的裸片周围分布了多个HBM堆栈，通过CoW技术拼接在一起。但不只是拼接而已，还要同时实现裸片和堆栈间的通信。台积电的CoW区别于其他先进封装的亮点在于，是将裸片和堆栈放在一个硅中介层（本质是一块晶圆）上，在中介层中做互联通道，实现裸片和堆栈的通信。类似的还有英特尔的EMIB，区别在于通过硅桥实现互联。但带宽远不及硅中介层，考虑到带宽与数据传输速率息息相关，CoWoS便成了H100的唯一选择。这便是卡住H100产能的另一只手。虽然CoWoS效果逆天，但4000-6000美元/片的天价还是拦住了不少人，其中就包括富可敌国的苹果。因...PC版：https://www.cnbeta.com.tw/articles/soft/1380411.htm手机版：https://m.cnbeta.com.tw/view/1380411.htm

在Telegram中查看

相关推荐

SK海力士和台积电卡英伟达脖子的幕后玩家

SK海力士和台积电卡英伟达脖子的幕后玩家根据GPUUtils的推测，保守估计，英伟达GPU潜在订单总额可能超过200亿美元，旗舰GPUH100的供给缺口高达43万张。英伟达CEO黄仁勋也直言：“我们目前的出货量远远不能满足需求。”老黄的苦衷，就在于卡住英伟达脖子的两项关键技术——CoWoS封装和HBM内存。SK海力士和台积电卡英伟达脖子的幕后玩家去年9月推出的H100，是英伟达产品矩阵中最先进的GPU。相较于前任A100，它的价格翻了1.5-2倍左右，但性能却有了质的飞跃：推理速度提升3.5倍，在训练速度提升2.3倍；如果用伺服器丛集运算的方式，训练速度更是能提高到9倍。在LLM训练中，它能让原本一个星期的工作量，缩短为20个小时。一块英伟达H100，主要由三个部分构成：中心的H100裸片两侧各有三个HBM堆栈，最外层则是台积电的2.5DCoWoS封装框。三个部件里，核心的逻辑芯片供应是最简单的，它主要产自台积电台南18号工厂，使用4N工艺节点（实际是5nm+）。由于5nm+下游的PC、智能手机和非AI相关数据中心芯片市场疲软，目前台积电5nm+产能利用率不到70%。因此逻辑芯片供应没有问题。英伟达最主要的供应缺口，来自逻辑芯片两侧的6块HBM（HighBandwidthMemory，高带宽内存），和把逻辑芯片、HBM连接起来的CoWoS封装（ChiponwaferonSubstrate，芯片、晶圆、基板封装）。HBM是一种基于3D堆叠工艺的DRAM内存芯片。其技术原理，就是将多个DDR芯片，垂直堆叠在一起，通过硅通孔（TSV）和微凸块（μBmps）技术，把芯片相互连接，从而突破了现有的性能限制，大大提高了存储容量，实现更高带宽、更高位宽、更低功耗、更小尺寸的DDR组合阵列。内存芯片对GPU性能至关重要，尤其是训练AI所用的高性能GPU。推理和训练工作负载是内存密集型任务。随着AI模型中参数数量的指数级增长，仅权重一项就将模型大小推高到了TB级。因此，从内存中存储和检索训练和推理数据的能力决定了GPU性能的上限。AI大模型和应用越多，越有利于HBM制造商。从整体HBM市场来看，两大韩国存储巨头SK海力士及三星占绝对垄断地位，二者合计市占率在90%左右。英伟达H100上面使用的HBM3由SK海力士独家供应，这是目前最先进的HBM产品。HBM3工艺复杂、成本高昂、产能有限，2022年，在整个HBM市场中，HBM3仅占约8%的市场份额。作为全球唯一有能力量产HBM3的公司，SK海力士牢牢卡住了英伟达H100的脖子；而前代A100/A800以及AMD的MI200使用的则是落后一代的HBM2E技术。不过，当前存储芯片业界正处于HBM2E向HBM3换代的过程中。据Trendforce数据，预计到2024年，HBM3市占率将超过60%，三星、美光等存储芯片厂都在积极布局，都对SK海力士的市场份额虎视眈眈。而先进封装则是一项与HBM内存相辅相成的技术——要用HBM堆栈，必须用先进封装把内存和GPU连接起来。H100上使用的台积电CoWoS先进封装，是一项2.5D封装技术。主流的2D封装方案，是在基板（Substrate）的表面水平安装所有芯片和无源器件的集成方式，类似于平面的拼图。而2.5D先进封装，则可以类比为横向排列的积木。多层DDR芯片堆叠的HBM堆栈，必须依赖先进封装才能实现。台积电的CoWoS先进封装方案，由CoW和oS组合而来：先将芯片通过ChiponWafer（CoW）的封装制程连接至硅晶圆，再把CoW芯片与基板连接（onSubstrate），整合成CoWoS。CoWoS技术大大提高了互联密度以及数据传输带宽，同时缩小了封装尺寸，但工艺也非常复杂，因此主要用于高端市场。据媒体报道，目前台积电CoWoS封装月产8000片，今年底有望提升至11000片，2024年底有望实现14500至16600片左右的月产能，也就是说，想要提升一倍的产量，几乎需要一年半的时间。摩尔定律见顶先进封装将成为主流类似HBM这样以多块芯片堆叠、再通过先进封装粘合起来的解决方案，已成为目前市场上高端芯片的主流设计思路。背后的原因很简单：先进制程目前已经迭代到7nm、5nm、3nm，技术节点越来越小，生产技术与制造工序越来越复杂，集成电路制造设备的资本投入也就越来越高。以5nm及更小的制程为例。在这一阶段，受波长限制，普通光刻机的精度已无法满足工艺要求，企业必须转向昂贵的EUV光刻机，一台的售价就高达14亿人民币。再加上刻蚀和薄膜沉积等设备，5nm制程的设备支出可达31亿美元，是14nm的2倍以上，28nm的4倍左右。为了成本效益，芯片制造商只能另辟蹊径，从单纯制程工艺的提升，转向通过系统级芯片设计，来提升晶体管密度和性能。另一方面，过去10年全球数据运算量爆炸式增长，已超越过去40年总和。随着消费电子与车用芯片的需求日益提高，就算芯片制程能达到摩尔定律理论上的物理极限（1nm），仍然无法满足未来产业应用的需求。而先进封装，因为能同时提高产品性能和降低成本，所以成了后摩尔时代的破局解法。生成式AI催生的庞大需求，已经在加速传统封装向先进封装的迭代。摩根士丹利指出，AI浪潮正在推动2.5D和3D先进封装技术的大规模应用，到2030年，先进封装将占据整个封装市场60%以上的份额。据FutureMarketInsights测算，当前规模约310亿美元的先进封装市场，将在未来十年内以7.2%的CAGR不断扩张。摩根士丹利分析师还指出，由于AI芯片增长超显著预期，因此3D/2.5D先进封装预计将以极快的速度增长。2021-2028年的CAGR将达到22%左右。卡英伟达脖子的厂商已经赚翻了HBM内存和先进封装领域的两大龙头——SK海力士和台积电，现在已经尝到了甜头。TrendForce数据显示，尽管在消费电子市场低迷影响下，内存芯片市场出货量和平均销售单价均出现下滑，但HBM产品却在逆势增长，价格一路水涨船高。有媒体报道称，2023年开年后三星、SK海力士两家存储大厂HBM订单快速增加。SK海力士独家供应的HBM3价格更是上涨5倍。作为原本单位售价就远高于其他规格内存芯片的高毛利产品，HBM3利润之丰厚堪称恐怖。TrendForce预计，AI浪潮带动下，2024年整体HBM营收将达到89亿美元，年增127%。与此同时，随着英伟达H100、AMDMI300的热销，台积电先进封装同样供不应求。摩根士丹利分析师表示：根据我们的代工厂供应链检查，单个CoWoS-S晶圆（及相关工艺）的售价为6，000-12，000美元，具体取决于客户/项目的规模和设计复杂性。根据台积电在Q2财报会议上公开的信息，预计2023年总收入的6-7%将来自先进封装和测试。我们估计CoWoS今年可能为台积电贡献约10亿美元的收入。由于台积电不断加码CoWoS产能（根据台积电Q2财报电话会上提供的数据，产能将在2024年翻一番），以及当前强劲的AI芯片需求，这一数字可能会进一步增长。因此，我们预计2023-2027年台积电CoWoS收入的CAGR将达到40%。...PC版：https://www.cnbeta.com.tw/articles/soft/1386673.htm手机版：https://m.cnbeta.com.tw/view/1386673.htm

谁捏住了英伟达的命门？

谁捏住了英伟达的命门？根源在于，GPU零部件产能严重不足，继而影响供应。以H100芯片为例，其最关键的零部件主要是：1）逻辑芯片；2）HBM存储芯片；3）CoWoS封装。核心的逻辑芯片尺寸为814平方毫米，主要由台积电最先进的台南18号工厂供应，使用的工艺节点则是“4N”，实际是5nm+。由于PC、智能手机和非AI相关数据中心芯片市场疲软，目前台积电5nm+产能利用率不到70%。因此逻辑芯片供应没有问题。在H100最中心的逻辑芯片旁边，是6块HBM（HighBandwidthMemory），它一种基于3D堆叠工艺的DRAM内存芯片，像摩天大厦中的楼层一样可以垂直堆叠，将多个DDR芯片堆叠在一起，通过硅通孔（TSV）连接，并使用TCB键合，实现更高带宽、更高位宽、更低功耗、更小尺寸。内存芯片对GPU性能至关重要，尤其是训练AI所用的高性能GPU。推理和训练工作负载是内存密集型任务。随着AI模型中参数数量的指数级增长，仅权重一项就将模型大小推高到了TB级。因此，从内存中存储和检索训练和推理数据的能力决定了GPU性能的上限。作为HBM的先驱，HBM供应几乎由韩国内存芯片厂商SK海力士一家垄断，市占率超过95%，也是唯一有能力生产H100各型号上所使用的HBM3的厂商。HBM3供应目前也相当紧俏，此前有媒体报道称，英伟达和AMD要求SK海力士提供尚未量产的下一代HBM3E芯片的样品。英伟达已要求SK海力士尽快供应HBM3E，并愿意支付“溢价”。不过，随着存储芯片大厂纷纷投入重金提升HBM3产能，供应紧张的状况或在今年有所缓解。近期有媒体报道称，在通过最终质量测试后，三星电子8月31日与英伟达签署了协议，将向后者供应HBM3。最早将于下周开始供应。早些时候，花旗亦在报告中透露，三星将在四季度开始向英伟达供应HBM3。另一大产能瓶颈，在于CoWoS封装。HBM和CoWoS封装两种技术相辅相成。HBM对焊盘数量和短线迹长度的要求很高，这就需要CoWoS先进封装技术来实现PCB甚至封装基板上无法实现的高密度、短连接。目前，几乎所有的HBM都采用CoWoS封装技术。英伟达GPUCoWoS封装的主力供应商是台积电。但由于需求爆炸式增长，台积电产线即便开足马力也难以填补供需鸿沟。为此，台积电已经新开竹南、龙潭和台中三座工厂，其中竹南工厂占地14.3公顷，比其他封装厂的总和还要大。有市场分析认为，台积电正积极加码先进封装产能，以满足市场对其先进封装解决方案的更多需求。另外，英伟达首席财务官ColetteKress近期透露，英伟达在CoWoS封装等关键制程已开发并认证其他供应商产能，预期未来数季供应可逐步攀升，英伟达持续与供应商合作增加产能。...PC版：https://www.cnbeta.com.tw/articles/soft/1381609.htm手机版：https://m.cnbeta.com.tw/view/1381609.htm

英伟达计划提高2024年H100 产量至少两倍需先克服产能瓶颈

英伟达计划提高2024年H100产量至少两倍需先克服产能瓶颈英伟达CUDA架构专为AI和HPC工作负载订制，因此有数百种应用程式只能在英伟达运算GPU运行。虽然亚马逊和Google都有订制AI处理器，AI训练和推理用，但仍必须购买大量英伟达GPU。然而，想增加英伟达H100、GH200GraceHopper及基础产品供应并不容易，英伟达想增加GH100产能，必须先摆脱几个瓶颈。首先，GH100很难大量生产。虽然现在产品产量已相当高，但仍需从台积电取得大量4N晶圆供应，才能让GH100产量提高两倍以上。若要制造200万颗芯片，需3.1万片晶圆，台积电5纳米晶圆总产能每月约15万片，且产能还须由英伟达、AMD、苹果等共享。再来，GH100依赖HBM2E或HBM3记忆体，并使用台积电CoWoS封装，英伟达也需确保供应正常，台积电也在努力满足CoWoS封装需求；第三，基于H100设备使用HBM2E、HBM3或HBM3E存储器，英伟达必须从美光、三星和SK海力士等公司购入足够HBM存储器。最后是英伟达H100显卡或SXM模组必须安装在某个地方，英伟达必须确保合作伙伴的AI服务器也有两到三倍输出。如果英伟达能满足全部H100GPU需求，明年营收会相当可观。...PC版：https://www.cnbeta.com.tw/articles/soft/1379565.htm手机版：https://m.cnbeta.com.tw/view/1379565.htm

消息称三星赢得英伟达2.5D封装订单

消息称三星赢得英伟达2.5D封装订单2.5D封装将CPU、GPU、I/O、HBM等芯片水平放置在中介层上。台积电将其2.5D封装技术称为CoWoS，而三星则将其称为I-Cube。英伟达的A100和H100就是采用此类封装技术制造的，英特尔Gaudi也是如此。三星自去年以来一直致力于为其2.5D封装服务争取客户。三星向客户提议，将为AVP团队分配足够的人员，同时提供自己的中介层晶圆设计。消息人士称，三星将为英伟达提供2.5D封装，其中装有四个HBM芯片。他们补充说，三星已经拥有放置8个HBM芯片的封装技术。同时，为了在12英寸晶圆上安装8个HBM芯片，需要16个中介层，这会降低生产效率。因此，当HBM芯片数量达到8个时，三星为此开发了中介层的面板级封装技术。英伟达将订单交给三星，可能是因为其人工智能（AI）芯片的需求增加，这意味着台积电的CoWoS产能将不足。该订单还可能让三星赢得HBM芯片订单。...PC版：https://www.cnbeta.com.tw/articles/soft/1426558.htm手机版：https://m.cnbeta.com.tw/view/1426558.htm

英伟达发布新一代 AI 芯片 H200

英伟达发布新一代AI芯片H200H200利用了美光等公司推出的HBM3e内存，提供了141GB内存容量(H100的1.8倍)和4.8TB/s内存带宽(H100的1.4倍)。大型语言模型推理速度方面，GPT-3175B是H100的1.6倍(A100的18倍)，LLaMA270B是H100的1.9倍。英伟达同时宣布2024年的H100产量翻倍，2024年第4季度发布基于新一代Blackwell架构的B100。投稿：@ZaiHuaBot频道：@TestFlightCN

英伟达新增英特尔为封装服务商有望月产 30 万颗 H100

英伟达新增英特尔为封装服务商有望月产30万颗H100据科创板日报援引外媒消息，市场日前传出，由于台积电CoWoS先进封装产能不足，促使英伟达新增英特尔为先进封装服务供货商、最快Q2加入，月产能约5000片。另据Tom`sHardware分析，假设良率完美、且英伟达与英特尔是针对H100签订合约，那么英伟达每月可增产超过30万颗H100GPU，可生产30万颗H100芯片。

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人