SK海力士和台积电卡英伟达脖子的幕后玩家

SK海力士和台积电卡英伟达脖子的幕后玩家根据GPUUtils的推测，保守估计，英伟达GPU潜在订单总额可能超过200亿美元，旗舰GPUH100的供给缺口高达43万张。英伟达CEO黄仁勋也直言：“我们目前的出货量远远不能满足需求。”老黄的苦衷，就在于卡住英伟达脖子的两项关键技术——CoWoS封装和HBM内存。SK海力士和台积电卡英伟达脖子的幕后玩家去年9月推出的H100，是英伟达产品矩阵中最先进的GPU。相较于前任A100，它的价格翻了1.5-2倍左右，但性能却有了质的飞跃：推理速度提升3.5倍，在训练速度提升2.3倍；如果用伺服器丛集运算的方式，训练速度更是能提高到9倍。在LLM训练中，它能让原本一个星期的工作量，缩短为20个小时。一块英伟达H100，主要由三个部分构成：中心的H100裸片两侧各有三个HBM堆栈，最外层则是台积电的2.5DCoWoS封装框。三个部件里，核心的逻辑芯片供应是最简单的，它主要产自台积电台南18号工厂，使用4N工艺节点（实际是5nm+）。由于5nm+下游的PC、智能手机和非AI相关数据中心芯片市场疲软，目前台积电5nm+产能利用率不到70%。因此逻辑芯片供应没有问题。英伟达最主要的供应缺口，来自逻辑芯片两侧的6块HBM（HighBandwidthMemory，高带宽内存），和把逻辑芯片、HBM连接起来的CoWoS封装（ChiponwaferonSubstrate，芯片、晶圆、基板封装）。HBM是一种基于3D堆叠工艺的DRAM内存芯片。其技术原理，就是将多个DDR芯片，垂直堆叠在一起，通过硅通孔（TSV）和微凸块（μBmps）技术，把芯片相互连接，从而突破了现有的性能限制，大大提高了存储容量，实现更高带宽、更高位宽、更低功耗、更小尺寸的DDR组合阵列。内存芯片对GPU性能至关重要，尤其是训练AI所用的高性能GPU。推理和训练工作负载是内存密集型任务。随着AI模型中参数数量的指数级增长，仅权重一项就将模型大小推高到了TB级。因此，从内存中存储和检索训练和推理数据的能力决定了GPU性能的上限。AI大模型和应用越多，越有利于HBM制造商。从整体HBM市场来看，两大韩国存储巨头SK海力士及三星占绝对垄断地位，二者合计市占率在90%左右。英伟达H100上面使用的HBM3由SK海力士独家供应，这是目前最先进的HBM产品。HBM3工艺复杂、成本高昂、产能有限，2022年，在整个HBM市场中，HBM3仅占约8%的市场份额。作为全球唯一有能力量产HBM3的公司，SK海力士牢牢卡住了英伟达H100的脖子；而前代A100/A800以及AMD的MI200使用的则是落后一代的HBM2E技术。不过，当前存储芯片业界正处于HBM2E向HBM3换代的过程中。据Trendforce数据，预计到2024年，HBM3市占率将超过60%，三星、美光等存储芯片厂都在积极布局，都对SK海力士的市场份额虎视眈眈。而先进封装则是一项与HBM内存相辅相成的技术——要用HBM堆栈，必须用先进封装把内存和GPU连接起来。H100上使用的台积电CoWoS先进封装，是一项2.5D封装技术。主流的2D封装方案，是在基板（Substrate）的表面水平安装所有芯片和无源器件的集成方式，类似于平面的拼图。而2.5D先进封装，则可以类比为横向排列的积木。多层DDR芯片堆叠的HBM堆栈，必须依赖先进封装才能实现。台积电的CoWoS先进封装方案，由CoW和oS组合而来：先将芯片通过ChiponWafer（CoW）的封装制程连接至硅晶圆，再把CoW芯片与基板连接（onSubstrate），整合成CoWoS。CoWoS技术大大提高了互联密度以及数据传输带宽，同时缩小了封装尺寸，但工艺也非常复杂，因此主要用于高端市场。据媒体报道，目前台积电CoWoS封装月产8000片，今年底有望提升至11000片，2024年底有望实现14500至16600片左右的月产能，也就是说，想要提升一倍的产量，几乎需要一年半的时间。摩尔定律见顶先进封装将成为主流类似HBM这样以多块芯片堆叠、再通过先进封装粘合起来的解决方案，已成为目前市场上高端芯片的主流设计思路。背后的原因很简单：先进制程目前已经迭代到7nm、5nm、3nm，技术节点越来越小，生产技术与制造工序越来越复杂，集成电路制造设备的资本投入也就越来越高。以5nm及更小的制程为例。在这一阶段，受波长限制，普通光刻机的精度已无法满足工艺要求，企业必须转向昂贵的EUV光刻机，一台的售价就高达14亿人民币。再加上刻蚀和薄膜沉积等设备，5nm制程的设备支出可达31亿美元，是14nm的2倍以上，28nm的4倍左右。为了成本效益，芯片制造商只能另辟蹊径，从单纯制程工艺的提升，转向通过系统级芯片设计，来提升晶体管密度和性能。另一方面，过去10年全球数据运算量爆炸式增长，已超越过去40年总和。随着消费电子与车用芯片的需求日益提高，就算芯片制程能达到摩尔定律理论上的物理极限（1nm），仍然无法满足未来产业应用的需求。而先进封装，因为能同时提高产品性能和降低成本，所以成了后摩尔时代的破局解法。生成式AI催生的庞大需求，已经在加速传统封装向先进封装的迭代。摩根士丹利指出，AI浪潮正在推动2.5D和3D先进封装技术的大规模应用，到2030年，先进封装将占据整个封装市场60%以上的份额。据FutureMarketInsights测算，当前规模约310亿美元的先进封装市场，将在未来十年内以7.2%的CAGR不断扩张。摩根士丹利分析师还指出，由于AI芯片增长超显著预期，因此3D/2.5D先进封装预计将以极快的速度增长。2021-2028年的CAGR将达到22%左右。卡英伟达脖子的厂商已经赚翻了HBM内存和先进封装领域的两大龙头——SK海力士和台积电，现在已经尝到了甜头。TrendForce数据显示，尽管在消费电子市场低迷影响下，内存芯片市场出货量和平均销售单价均出现下滑，但HBM产品却在逆势增长，价格一路水涨船高。有媒体报道称，2023年开年后三星、SK海力士两家存储大厂HBM订单快速增加。SK海力士独家供应的HBM3价格更是上涨5倍。作为原本单位售价就远高于其他规格内存芯片的高毛利产品，HBM3利润之丰厚堪称恐怖。TrendForce预计，AI浪潮带动下，2024年整体HBM营收将达到89亿美元，年增127%。与此同时，随着英伟达H100、AMDMI300的热销，台积电先进封装同样供不应求。摩根士丹利分析师表示：根据我们的代工厂供应链检查，单个CoWoS-S晶圆（及相关工艺）的售价为6，000-12，000美元，具体取决于客户/项目的规模和设计复杂性。根据台积电在Q2财报会议上公开的信息，预计2023年总收入的6-7%将来自先进封装和测试。我们估计CoWoS今年可能为台积电贡献约10亿美元的收入。由于台积电不断加码CoWoS产能（根据台积电Q2财报电话会上提供的数据，产能将在2024年翻一番），以及当前强劲的AI芯片需求，这一数字可能会进一步增长。因此，我们预计2023-2027年台积电CoWoS收入的CAGR将达到40%。...PC版：https://www.cnbeta.com.tw/articles/soft/1386673.htm手机版：https://m.cnbeta.com.tw/view/1386673.htm

在Telegram中查看

相关推荐

台积电协同旗下创意拿下SK海力士订单

台积电协同旗下创意拿下SK海力士订单继台积电独家代工英伟达、AMD等科技巨头人工智能芯片之后，传出台积电协同旗下特殊应用IC设计服务厂创意，取得SK海力士在HBM4的关键基础介面芯片委托设计案订单。预期最快明年设计定案，将依高效能或低功耗不同，分别采用台积电12纳米及5纳米生产。业界分析，SK海力士愿意将基础介面芯片订单释放给创意和台积电，主要原因是目前HPC芯片使用的CoWoS先进封装市场仍有超过九成掌握在台积电手中。业界研判，在SK海力士释单之后，美光未来也有望将基础介面芯片交由创意和台积电量产。——

SK海力士、台积电宣布合作开发HBM4芯片预期2026年投产

SK海力士、台积电宣布合作开发HBM4芯片预期2026年投产（来源：SK海力士）背景：什么是高带宽内存众所周知，高带宽内存是为了解决传统DDR内存的带宽不足以应对高性能计算需求而开发。通过堆叠内存芯片和通过硅通孔（TSV）连接这些芯片，从而显著提高内存带宽。SK海力士在2013年首次宣布HBM技术开发成功，后来被称为HBM1的芯片通过AMD的RadeonR9Fury显卡首次登陆市场。后续，HBM家族又先后迎来HBM2、HBM2E、HBM3和HBM3E。SK海力士介绍称，HBM3E带来了10%的散热改进，同时数据处理能力也达到每秒1.18TB的水平。（HBM3E芯片成品，来源：SK海力士）技术的迭代也带来了参数的翻倍。举例而言，根据英伟达官方的规格参数表，H100产品主要搭载的是80GB的HBM3，而使用HBM3E的H200产品，内存容量则达到几乎翻倍的141GB。找台积电做些什么？在此次合作前，所有的海力士HBM芯片都是基于公司自己的制程工艺，包括制造封装内最底层的基础裸片，然后将多层DRAM裸片堆叠在基础裸片上。（HBM3E演示视频，来源：SK海力士）两家公司在公告中表示，从HBM4产品开始，准备用台积电的先进逻辑工艺来制造基础裸片。通过超细微工艺增加更多的功能，公司可以生产在性能、共享等方面更满足客户需求的定制化HBM产品。另外，双方还计划合作优化HBM产品和台积电独有的CoWoS技术融合（2.5D封装）。通过与台积电的合作，SK海力士计划于2026年开始大规模生产HBM4芯片。作为英伟达的主要供应商，海力士正在向AI龙头提供HBM3芯片，今年开始交付HBM3E芯片。对于台积电而言，AI服务器也是在消费电子疲软、汽车需求下降的当下，维持公司业绩的最强劲驱动因素。台积电预计2024财年的总资本支出大约在280-320亿美元之间，约有10%投资于先进封装能力。三巨头激战HBM市场根据公开市场能够找得到的信息，目前国际大厂里只有SK海力士、美光科技和三星电子有能力生产与H100这类AI计算系统搭配的HBM芯片。而眼下，这三家正隔着太平洋展开激烈的竞争。大概比SK海力士早大半个月，美光科技也在今年宣布开始量产HBM3E芯片。今年2月，正在加紧扩展HBM产能的三星也发布了业界容量最大的36GBHBM3E12H芯片。英伟达上个月表示正在对三星的芯片进行资格认证，以用于AI服务器产品。研究机构Trendforce估算，2024年的HBM市场里，SK海力士能够占到52.5%的份额，三星和美光则占42.4%和5.1%。另外，在动态随机存取存储器（DRAM）行业内，HBM的收入份额在2023年超过8%，预计在2024年能达到20%。对于SK海力士与台积电合作一事，普华永道高科技行业研究中心主任AllenCheng认为是“明智的举措”。他表示：“台积电几乎拥有所有开发尖端AI芯片的关键客户，进一步加深伙伴关系，意味着海力士能吸引更多的客户使用该公司的HBM。”...PC版：https://www.cnbeta.com.tw/articles/soft/1427912.htm手机版：https://m.cnbeta.com.tw/view/1427912.htm

SK 海力士、台积电宣布合作开发 HBM4 芯片，预期2026年投产

SK海力士、台积电宣布合作开发HBM4芯片，预期2026年投产在此次合作前，所有的海力士HBM芯片都是基于公司自己的制程工艺，包括制造封装内最底层的基础裸片，然后将多层DRAM裸片堆叠在基础裸片上。从HBM4产品开始，海力士准备用台积电的先进逻辑工艺来制造基础裸片。另外，双方还计划合作优化HBM产品和台积电独有的CoWoS技术融合（2.5D封装）。https://api3.cls.cn/share/article/1652041

台积电据悉协同创意电子拿下 SK 海力士芯片大单

台积电据悉协同创意电子拿下SK海力士芯片大单台积电继独家代工英伟达、超微（AMD）等科技巨头AI芯片之后，市场近日传出协同旗下创意电子取得下世代HBM4关键的基础界面芯片大单。另一方面，SK海力士已宣布与台积电冲刺HBM4及先进封装商机。业界指出，创意已经拿下SK海力士在HBM4芯片委托设计案订单，预期最快明年设计定案，将依高效能或低功耗不同，分别采用台积电12纳米及5纳米生产，预期下半年委托设计（NRE）开案将明显贡献营收，抢进HBM供应链。

谁捏住了英伟达的命门？

谁捏住了英伟达的命门？根源在于，GPU零部件产能严重不足，继而影响供应。以H100芯片为例，其最关键的零部件主要是：1）逻辑芯片；2）HBM存储芯片；3）CoWoS封装。核心的逻辑芯片尺寸为814平方毫米，主要由台积电最先进的台南18号工厂供应，使用的工艺节点则是“4N”，实际是5nm+。由于PC、智能手机和非AI相关数据中心芯片市场疲软，目前台积电5nm+产能利用率不到70%。因此逻辑芯片供应没有问题。在H100最中心的逻辑芯片旁边，是6块HBM（HighBandwidthMemory），它一种基于3D堆叠工艺的DRAM内存芯片，像摩天大厦中的楼层一样可以垂直堆叠，将多个DDR芯片堆叠在一起，通过硅通孔（TSV）连接，并使用TCB键合，实现更高带宽、更高位宽、更低功耗、更小尺寸。内存芯片对GPU性能至关重要，尤其是训练AI所用的高性能GPU。推理和训练工作负载是内存密集型任务。随着AI模型中参数数量的指数级增长，仅权重一项就将模型大小推高到了TB级。因此，从内存中存储和检索训练和推理数据的能力决定了GPU性能的上限。作为HBM的先驱，HBM供应几乎由韩国内存芯片厂商SK海力士一家垄断，市占率超过95%，也是唯一有能力生产H100各型号上所使用的HBM3的厂商。HBM3供应目前也相当紧俏，此前有媒体报道称，英伟达和AMD要求SK海力士提供尚未量产的下一代HBM3E芯片的样品。英伟达已要求SK海力士尽快供应HBM3E，并愿意支付“溢价”。不过，随着存储芯片大厂纷纷投入重金提升HBM3产能，供应紧张的状况或在今年有所缓解。近期有媒体报道称，在通过最终质量测试后，三星电子8月31日与英伟达签署了协议，将向后者供应HBM3。最早将于下周开始供应。早些时候，花旗亦在报告中透露，三星将在四季度开始向英伟达供应HBM3。另一大产能瓶颈，在于CoWoS封装。HBM和CoWoS封装两种技术相辅相成。HBM对焊盘数量和短线迹长度的要求很高，这就需要CoWoS先进封装技术来实现PCB甚至封装基板上无法实现的高密度、短连接。目前，几乎所有的HBM都采用CoWoS封装技术。英伟达GPUCoWoS封装的主力供应商是台积电。但由于需求爆炸式增长，台积电产线即便开足马力也难以填补供需鸿沟。为此，台积电已经新开竹南、龙潭和台中三座工厂，其中竹南工厂占地14.3公顷，比其他封装厂的总和还要大。有市场分析认为，台积电正积极加码先进封装产能，以满足市场对其先进封装解决方案的更多需求。另外，英伟达首席财务官ColetteKress近期透露，英伟达在CoWoS封装等关键制程已开发并认证其他供应商产能，预期未来数季供应可逐步攀升，英伟达持续与供应商合作增加产能。...PC版：https://www.cnbeta.com.tw/articles/soft/1381609.htm手机版：https://m.cnbeta.com.tw/view/1381609.htm

谁卡了英伟达的脖子？

谁卡了英伟达的脖子？如果缺货继续延续到今年年底，英伟达的业绩恐怕会更加震撼。H100的短缺不禁让人想起几年前，GPU因为加密货币暴涨导致缺货，英伟达被游戏玩家骂得狗血淋头。不过当年的显卡缺货很大程度上是因为不合理的溢价，H100的缺货却是产能实在有限，加价也买不到。换句话说，英伟达还是赚少了。在财报发布当天的电话会议上，“产能”理所当然地成为了最高频词汇。对此，英伟达措辞严谨，不该背的锅坚决不背：“市场份额方面，不是仅靠我们就可以获得的，这需要跨越许多不同的供应商。”实际上，英伟达所说的“许多不同的供应商”，算来算去也就两家：SK海力士和台积电。HBM：韩国人的游戏如果只看面积占比，一颗H100芯片，属于英伟达的部分只有50%左右。在芯片剖面图中，H100裸片占据核心位置，两边各有三个HBM堆栈，加起面积与H100裸片相当。这六颗平平无奇的内存芯片，就是H100供应短缺的罪魁祸首之一。HBM（HighBandwidthMemory）直译过来叫高宽带内存，在GPU中承担一部分存储器之职。和传统的DDR内存不同，HBM本质上是将多个DRAM内存在垂直方向堆叠，这样既增加了内存容量，又能很好的控制内存的功耗和芯片面积，减少在封装内部占用的空间。“堆叠式内存”原本瞄准的是对芯片面积和发热非常敏感的智能手机市场，但问题是，由于生产成本太高，智能手机最终选择了性价比更高的LPDDR路线，导致堆叠式内存空有技术储备，却找不到落地场景。直到2015年，市场份额节节败退的AMD希望借助4K游戏的普及，抄一波英伟达的后路。在当年发布的AMDFiji系列GPU中，AMD采用了与SK海力士联合研发的堆叠式内存，并将其命名为HBM（HighBandwidthMemory）。AMD的设想是，4K游戏需要更大的数据吞吐效率，HBM内存高带宽的优势就能体现出来。当时AMD的RadeonR9FuryX显卡，也的确在纸面性能上压了英伟达Kepler架构新品一头。但问题是，HBM带来的带宽提升，显然难以抵消其本身的高成本，因此也未得到普及。直到2016年，AlphaGo横扫冠军棋手李世石，深度学习横空出世，让HBM内存一下有了用武之地。深度学习的核心在于通过海量数据训练模型，确定函数中的参数，在决策中带入实际数据得到最终的解。理论上来说，数据量越大得到的函数参数越可靠，这就让AI训练对数据吞吐量及数据传输的延迟性有了一种近乎病态的追求，而这恰恰是HBM内存解决的问题。2017年，AlphaGo再战柯洁，芯片换成了Google自家研发的TPU。在芯片设计上，从第二代开始的每一代TPU，都采用了HBM的设计。英伟达针对数据中心和深度学习的新款GPUTeslaP100，搭载了第二代HBM内存（HBM2）。随着高性能计算市场的GPU芯片几乎都配备了HBM内存，存储巨头们围绕HBM的竞争也迅速展开。目前，全球能够量产HBM的仅有存储器三大巨头：SK海力士、三星电子、美光。SK海力士是HBM发明者之一，是目前唯一量产HBM3E（第三代HBM）的厂商；三星电子以HBM2（第二代HBM）入局，是英伟达首款采用HBM的GPU的供应商；美光最落后，2018年才从HMC转向HBM路线，2020年年中才开始量产HBM2。其中，SK海力士独占HBM50%市场份额，而其独家供应给英伟达的HBM3E，更是牢牢卡住了H100的出货量：H100PCIe和SXM版本均用了5个HBM堆栈，H100SSXM版本可达到6个，英伟达力推的H100NVL版本更是达到了12个。按照研究机构的拆解，单颗16GB的HBM堆栈，成本就高达240美元。那么H100NVL单单内存芯片的成本，就将近3000美元。成本还是小问题，考虑到与H100直接竞争的GoogleTPUv5和AMDMI300即将量产，后两者同样将采用HBM3E，陈能更加捉襟见肘。面对激增的需求，据说SK海力士已定下产能翻番的小目标，着手扩建产线，三星和美光也对HBM3E摩拳擦掌，但在半导体产业，扩建产线从来不是一蹴而就的。按照9-12个月的周期乐观预计，HBM3E产能至少也得到明年第二季度才能得到补充。另外，就算解决了HBM的产能，H100能供应多少，还得看台积电的脸色。CoWoS：台积电的宝刀分析师RobertCastellano不久前做了一个测算，H100采用了台积电4N工艺（5nm）生产，一片4N工艺的12寸晶圆价格为13400美元，理论上可以切割86颗H100芯片。如果不考虑生产良率，那么每生产一颗H100，台积电就能获得155美元的收入[6]。但实际上，每颗H100给台积电带来的收入很可能超过1000美元，原因就在于H100采用了台积电的CoWoS封装技术，通过封装带来的收入高达723美元[6]。每一颗H100从台积电十八厂的N4/N5产线上下来，都会运往同在园区内的台积电先进封测二厂，完成H100制造中最为特别、也至关重要的一步——CoWoS。要理解CoWoS封装的重要性，依然要从H100的芯片设计讲起。在消费级GPU产品中，内存芯片一般都封装在GPU核心的外围，通过PCB板之间的电路传递信号。比如下图中同属英伟达出品的RTX4090芯片，GPU核心和GDDR内存都是分开封装再拼到一块PCB板上，彼此独立。GPU和CPU都遵循着冯·诺依曼架构，其核心在于“存算分离”——即芯片处理数据时，需要从外部的内存中调取数据，计算完成后再传输到内存中，一来一回，都会造成计算的延迟。同时，数据传输的“数量”也会因此受限制。可以将GPU和内存的关系比作上海的浦东和浦西，两地间的物资（数据）运输需要依赖南浦大桥，南浦大桥的运载量决定了物资运输的效率，这个运载量就是内存带宽，它决定了数据传输的速度，也间接影响着GPU的计算速度。1980年到2000年，GPU和内存的“速度失配”以每年50%的速率增加。也就是说，就算修了龙耀路隧道和上中路隧道，也无法满足浦东浦西两地物资运输的增长，这就导致高性能计算场景下，带宽成为了越来越明显的瓶颈。CPU/GPU性能与内存性能之间的差距正在拉大2015年，AMD在应用HBM内存的同时，也针对数据传输采用了一种创新的解决方案：把浦东和浦西拼起来。简单来说，2015年的Fiji架构显卡，将HBM内存和GPU核心“缝合”在了一起，把几块小芯片变成了一整块大芯片。这样，数据吞吐效率就成倍提高。不过如上文所述，由于成本和技术问题，AMD的Fiji架构并没有让市场买账。但深度学习的爆发以及AI训练对数据吞吐效率不计成本的追求，让“芯片缝合”有了用武之地。另外，AMD的思路固然好，但也带来了一个新问题——无论HBM有多少优势，它都必须和“缝芯片”的先进封装技术配合，两者唇齿相依。如果说HBM内存还能货比三家，那么“缝芯片”所用的先进封装，看来看去就只有台积电一家能做。CoWoS是台积电先进封装事业的起点，英伟达则是第一个采用这一技术的芯片公司。CoWoS由CoW和oS组合而来：CoW表示ChiponWafer，指裸片在晶圆上被拼装的过程，oS表示on Substrate，指在基板上被封装的过程。传统封装一般只有oS环节，一般在代工厂完成晶圆制造后，交给第三方封测厂解决，但先进封装增加的CoW环节，就不是封测厂能解决的了的。以一颗完整的H100芯片为例，H100的裸片周围分布了多个HBM堆栈，通过CoW技术拼接在一起。但不只是拼接而已，还要同时实现裸片和堆栈间的通信。台积电的CoW区别于其他先进封装的亮点在于，是将裸片和堆栈放在一个硅中介层（本质是一块晶圆）上，在中介层中做互联通道，实现裸片和堆栈的通信。类似的还有英特尔的EMIB，区别在于通过硅桥实现互联。但带宽远不及硅中介层，考虑到带宽与数据传输速率息息相关，CoWoS便成了H100的唯一选择。这便是卡住H100产能的另一只手。虽然CoWoS效果逆天，但4000-6000美元/片的天价还是拦住了不少人，其中就包括富可敌国的苹果。因...PC版：https://www.cnbeta.com.tw/articles/soft/1380411.htm手机版：https://m.cnbeta.com.tw/view/1380411.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人