SK海力士和台积电 卡英伟达脖子的幕后玩家

SK海力士和台积电卡英伟达脖子的幕后玩家根据GPUUtils的推测,保守估计,英伟达GPU潜在订单总额可能超过200亿美元,旗舰GPUH100的供给缺口高达43万张。英伟达CEO黄仁勋也直言:“我们目前的出货量远远不能满足需求。”老黄的苦衷,就在于卡住英伟达脖子的两项关键技术——CoWoS封装和HBM内存。SK海力士和台积电卡英伟达脖子的幕后玩家去年9月推出的H100,是英伟达产品矩阵中最先进的GPU。相较于前任A100,它的价格翻了1.5-2倍左右,但性能却有了质的飞跃:推理速度提升3.5倍,在训练速度提升2.3倍;如果用伺服器丛集运算的方式,训练速度更是能提高到9倍。在LLM训练中,它能让原本一个星期的工作量,缩短为20个小时。一块英伟达H100,主要由三个部分构成:中心的H100裸片两侧各有三个HBM堆栈,最外层则是台积电的2.5DCoWoS封装框。三个部件里,核心的逻辑芯片供应是最简单的,它主要产自台积电台南18号工厂,使用4N工艺节点(实际是5nm+)。由于5nm+下游的PC、智能手机和非AI相关数据中心芯片市场疲软,目前台积电5nm+产能利用率不到70%。因此逻辑芯片供应没有问题。英伟达最主要的供应缺口,来自逻辑芯片两侧的6块HBM(HighBandwidthMemory,高带宽内存),和把逻辑芯片、HBM连接起来的CoWoS封装(ChiponwaferonSubstrate,芯片、晶圆、基板封装)。HBM是一种基于3D堆叠工艺的DRAM内存芯片。其技术原理,就是将多个DDR芯片,垂直堆叠在一起,通过硅通孔(TSV)和微凸块(μBmps)技术,把芯片相互连接,从而突破了现有的性能限制,大大提高了存储容量,实现更高带宽、更高位宽、更低功耗、更小尺寸的DDR组合阵列。内存芯片对GPU性能至关重要,尤其是训练AI所用的高性能GPU。推理和训练工作负载是内存密集型任务。随着AI模型中参数数量的指数级增长,仅权重一项就将模型大小推高到了TB级。因此,从内存中存储和检索训练和推理数据的能力决定了GPU性能的上限。AI大模型和应用越多,越有利于HBM制造商。从整体HBM市场来看,两大韩国存储巨头SK海力士及三星占绝对垄断地位,二者合计市占率在90%左右。英伟达H100上面使用的HBM3由SK海力士独家供应,这是目前最先进的HBM产品。HBM3工艺复杂、成本高昂、产能有限,2022年,在整个HBM市场中,HBM3仅占约8%的市场份额。作为全球唯一有能力量产HBM3的公司,SK海力士牢牢卡住了英伟达H100的脖子;而前代A100/A800以及AMD的MI200使用的则是落后一代的HBM2E技术。不过,当前存储芯片业界正处于HBM2E向HBM3换代的过程中。据Trendforce数据,预计到2024年,HBM3市占率将超过60%,三星、美光等存储芯片厂都在积极布局,都对SK海力士的市场份额虎视眈眈。而先进封装则是一项与HBM内存相辅相成的技术——要用HBM堆栈,必须用先进封装把内存和GPU连接起来。H100上使用的台积电CoWoS先进封装,是一项2.5D封装技术。主流的2D封装方案,是在基板(Substrate)的表面水平安装所有芯片和无源器件的集成方式,类似于平面的拼图。而2.5D先进封装,则可以类比为横向排列的积木。多层DDR芯片堆叠的HBM堆栈,必须依赖先进封装才能实现。台积电的CoWoS先进封装方案,由CoW和oS组合而来:先将芯片通过ChiponWafer(CoW)的封装制程连接至硅晶圆,再把CoW芯片与基板连接(onSubstrate),整合成CoWoS。CoWoS技术大大提高了互联密度以及数据传输带宽,同时缩小了封装尺寸,但工艺也非常复杂,因此主要用于高端市场。据媒体报道,目前台积电CoWoS封装月产8000片,今年底有望提升至11000片,2024年底有望实现14500至16600片左右的月产能,也就是说,想要提升一倍的产量,几乎需要一年半的时间。摩尔定律见顶先进封装将成为主流类似HBM这样以多块芯片堆叠、再通过先进封装粘合起来的解决方案,已成为目前市场上高端芯片的主流设计思路。背后的原因很简单:先进制程目前已经迭代到7nm、5nm、3nm,技术节点越来越小,生产技术与制造工序越来越复杂,集成电路制造设备的资本投入也就越来越高。以5nm及更小的制程为例。在这一阶段,受波长限制,普通光刻机的精度已无法满足工艺要求,企业必须转向昂贵的EUV光刻机,一台的售价就高达14亿人民币。再加上刻蚀和薄膜沉积等设备,5nm制程的设备支出可达31亿美元,是14nm的2倍以上,28nm的4倍左右。为了成本效益,芯片制造商只能另辟蹊径,从单纯制程工艺的提升,转向通过系统级芯片设计,来提升晶体管密度和性能。另一方面,过去10年全球数据运算量爆炸式增长,已超越过去40年总和。随着消费电子与车用芯片的需求日益提高,就算芯片制程能达到摩尔定律理论上的物理极限(1nm),仍然无法满足未来产业应用的需求。而先进封装,因为能同时提高产品性能和降低成本,所以成了后摩尔时代的破局解法。生成式AI催生的庞大需求,已经在加速传统封装向先进封装的迭代。摩根士丹利指出,AI浪潮正在推动2.5D和3D先进封装技术的大规模应用,到2030年,先进封装将占据整个封装市场60%以上的份额。据FutureMarketInsights测算,当前规模约310亿美元的先进封装市场,将在未来十年内以7.2%的CAGR不断扩张。摩根士丹利分析师还指出,由于AI芯片增长超显著预期,因此3D/2.5D先进封装预计将以极快的速度增长。2021-2028年的CAGR将达到22%左右。卡英伟达脖子的厂商已经赚翻了HBM内存和先进封装领域的两大龙头——SK海力士和台积电,现在已经尝到了甜头。TrendForce数据显示,尽管在消费电子市场低迷影响下,内存芯片市场出货量和平均销售单价均出现下滑,但HBM产品却在逆势增长,价格一路水涨船高。有媒体报道称,2023年开年后三星、SK海力士两家存储大厂HBM订单快速增加。SK海力士独家供应的HBM3价格更是上涨5倍。作为原本单位售价就远高于其他规格内存芯片的高毛利产品,HBM3利润之丰厚堪称恐怖。TrendForce预计,AI浪潮带动下,2024年整体HBM营收将达到89亿美元,年增127%。与此同时,随着英伟达H100、AMDMI300的热销,台积电先进封装同样供不应求。摩根士丹利分析师表示:根据我们的代工厂供应链检查,单个CoWoS-S晶圆(及相关工艺)的售价为6,000-12,000美元,具体取决于客户/项目的规模和设计复杂性。根据台积电在Q2财报会议上公开的信息,预计2023年总收入的6-7%将来自先进封装和测试。我们估计CoWoS今年可能为台积电贡献约10亿美元的收入。由于台积电不断加码CoWoS产能(根据台积电Q2财报电话会上提供的数据,产能将在2024年翻一番),以及当前强劲的AI芯片需求,这一数字可能会进一步增长。因此,我们预计2023-2027年台积电CoWoS收入的CAGR将达到40%。...PC版:https://www.cnbeta.com.tw/articles/soft/1386673.htm手机版:https://m.cnbeta.com.tw/view/1386673.htm

相关推荐

封面图片

台积电协同旗下创意拿下SK海力士订单

台积电协同旗下创意拿下SK海力士订单继台积电独家代工英伟达、AMD等科技巨头人工智能芯片之后,传出台积电协同旗下特殊应用IC设计服务厂创意,取得SK海力士在HBM4的关键基础介面芯片委托设计案订单。预期最快明年设计定案,将依高效能或低功耗不同,分别采用台积电12纳米及5纳米生产。业界分析,SK海力士愿意将基础介面芯片订单释放给创意和台积电,主要原因是目前HPC芯片使用的CoWoS先进封装市场仍有超过九成掌握在台积电手中。业界研判,在SK海力士释单之后,美光未来也有望将基础介面芯片交由创意和台积电量产。——

封面图片

SK海力士、台积电宣布合作开发HBM4芯片 预期2026年投产

SK海力士、台积电宣布合作开发HBM4芯片预期2026年投产(来源:SK海力士)背景:什么是高带宽内存众所周知,高带宽内存是为了解决传统DDR内存的带宽不足以应对高性能计算需求而开发。通过堆叠内存芯片和通过硅通孔(TSV)连接这些芯片,从而显著提高内存带宽。SK海力士在2013年首次宣布HBM技术开发成功,后来被称为HBM1的芯片通过AMD的RadeonR9Fury显卡首次登陆市场。后续,HBM家族又先后迎来HBM2、HBM2E、HBM3和HBM3E。SK海力士介绍称,HBM3E带来了10%的散热改进,同时数据处理能力也达到每秒1.18TB的水平。(HBM3E芯片成品,来源:SK海力士)技术的迭代也带来了参数的翻倍。举例而言,根据英伟达官方的规格参数表,H100产品主要搭载的是80GB的HBM3,而使用HBM3E的H200产品,内存容量则达到几乎翻倍的141GB。找台积电做些什么?在此次合作前,所有的海力士HBM芯片都是基于公司自己的制程工艺,包括制造封装内最底层的基础裸片,然后将多层DRAM裸片堆叠在基础裸片上。(HBM3E演示视频,来源:SK海力士)两家公司在公告中表示,从HBM4产品开始,准备用台积电的先进逻辑工艺来制造基础裸片。通过超细微工艺增加更多的功能,公司可以生产在性能、共享等方面更满足客户需求的定制化HBM产品。另外,双方还计划合作优化HBM产品和台积电独有的CoWoS技术融合(2.5D封装)。通过与台积电的合作,SK海力士计划于2026年开始大规模生产HBM4芯片。作为英伟达的主要供应商,海力士正在向AI龙头提供HBM3芯片,今年开始交付HBM3E芯片。对于台积电而言,AI服务器也是在消费电子疲软、汽车需求下降的当下,维持公司业绩的最强劲驱动因素。台积电预计2024财年的总资本支出大约在280-320亿美元之间,约有10%投资于先进封装能力。三巨头激战HBM市场根据公开市场能够找得到的信息,目前国际大厂里只有SK海力士、美光科技和三星电子有能力生产与H100这类AI计算系统搭配的HBM芯片。而眼下,这三家正隔着太平洋展开激烈的竞争。大概比SK海力士早大半个月,美光科技也在今年宣布开始量产HBM3E芯片。今年2月,正在加紧扩展HBM产能的三星也发布了业界容量最大的36GBHBM3E12H芯片。英伟达上个月表示正在对三星的芯片进行资格认证,以用于AI服务器产品。研究机构Trendforce估算,2024年的HBM市场里,SK海力士能够占到52.5%的份额,三星和美光则占42.4%和5.1%。另外,在动态随机存取存储器(DRAM)行业内,HBM的收入份额在2023年超过8%,预计在2024年能达到20%。对于SK海力士与台积电合作一事,普华永道高科技行业研究中心主任AllenCheng认为是“明智的举措”。他表示:“台积电几乎拥有所有开发尖端AI芯片的关键客户,进一步加深伙伴关系,意味着海力士能吸引更多的客户使用该公司的HBM。”...PC版:https://www.cnbeta.com.tw/articles/soft/1427912.htm手机版:https://m.cnbeta.com.tw/view/1427912.htm

封面图片

SK 海力士、台积电 宣布合作开发 HBM4 芯片,预期2026年投产

SK海力士、台积电宣布合作开发HBM4芯片,预期2026年投产在此次合作前,所有的海力士HBM芯片都是基于公司自己的制程工艺,包括制造封装内最底层的基础裸片,然后将多层DRAM裸片堆叠在基础裸片上。从HBM4产品开始,海力士准备用台积电的先进逻辑工艺来制造基础裸片。另外,双方还计划合作优化HBM产品和台积电独有的CoWoS技术融合(2.5D封装)。https://api3.cls.cn/share/article/1652041

封面图片

台积电据悉协同创意电子拿下 SK 海力士芯片大单

台积电据悉协同创意电子拿下SK海力士芯片大单台积电继独家代工英伟达、超微(AMD)等科技巨头AI芯片之后,市场近日传出协同旗下创意电子取得下世代HBM4关键的基础界面芯片大单。另一方面,SK海力士已宣布与台积电冲刺HBM4及先进封装商机。业界指出,创意已经拿下SK海力士在HBM4芯片委托设计案订单,预期最快明年设计定案,将依高效能或低功耗不同,分别采用台积电12纳米及5纳米生产,预期下半年委托设计(NRE)开案将明显贡献营收,抢进HBM供应链。

封面图片

谁捏住了英伟达的命门?

谁捏住了英伟达的命门?根源在于,GPU零部件产能严重不足,继而影响供应。以H100芯片为例,其最关键的零部件主要是:1)逻辑芯片;2)HBM存储芯片;3)CoWoS封装。核心的逻辑芯片尺寸为814平方毫米,主要由台积电最先进的台南18号工厂供应,使用的工艺节点则是“4N”,实际是5nm+。由于PC、智能手机和非AI相关数据中心芯片市场疲软,目前台积电5nm+产能利用率不到70%。因此逻辑芯片供应没有问题。在H100最中心的逻辑芯片旁边,是6块HBM(HighBandwidthMemory),它一种基于3D堆叠工艺的DRAM内存芯片,像摩天大厦中的楼层一样可以垂直堆叠,将多个DDR芯片堆叠在一起,通过硅通孔(TSV)连接,并使用TCB键合,实现更高带宽、更高位宽、更低功耗、更小尺寸。内存芯片对GPU性能至关重要,尤其是训练AI所用的高性能GPU。推理和训练工作负载是内存密集型任务。随着AI模型中参数数量的指数级增长,仅权重一项就将模型大小推高到了TB级。因此,从内存中存储和检索训练和推理数据的能力决定了GPU性能的上限。作为HBM的先驱,HBM供应几乎由韩国内存芯片厂商SK海力士一家垄断,市占率超过95%,也是唯一有能力生产H100各型号上所使用的HBM3的厂商。HBM3供应目前也相当紧俏,此前有媒体报道称,英伟达和AMD要求SK海力士提供尚未量产的下一代HBM3E芯片的样品。英伟达已要求SK海力士尽快供应HBM3E,并愿意支付“溢价”。不过,随着存储芯片大厂纷纷投入重金提升HBM3产能,供应紧张的状况或在今年有所缓解。近期有媒体报道称,在通过最终质量测试后,三星电子8月31日与英伟达签署了协议,将向后者供应HBM3。最早将于下周开始供应。早些时候,花旗亦在报告中透露,三星将在四季度开始向英伟达供应HBM3。另一大产能瓶颈,在于CoWoS封装。HBM和CoWoS封装两种技术相辅相成。HBM对焊盘数量和短线迹长度的要求很高,这就需要CoWoS先进封装技术来实现PCB甚至封装基板上无法实现的高密度、短连接。目前,几乎所有的HBM都采用CoWoS封装技术。英伟达GPUCoWoS封装的主力供应商是台积电。但由于需求爆炸式增长,台积电产线即便开足马力也难以填补供需鸿沟。为此,台积电已经新开竹南、龙潭和台中三座工厂,其中竹南工厂占地14.3公顷,比其他封装厂的总和还要大。有市场分析认为,台积电正积极加码先进封装产能,以满足市场对其先进封装解决方案的更多需求。另外,英伟达首席财务官ColetteKress近期透露,英伟达在CoWoS封装等关键制程已开发并认证其他供应商产能,预期未来数季供应可逐步攀升,英伟达持续与供应商合作增加产能。...PC版:https://www.cnbeta.com.tw/articles/soft/1381609.htm手机版:https://m.cnbeta.com.tw/view/1381609.htm

封面图片

谁卡了英伟达的脖子?

谁卡了英伟达的脖子?如果缺货继续延续到今年年底,英伟达的业绩恐怕会更加震撼。H100的短缺不禁让人想起几年前,GPU因为加密货币暴涨导致缺货,英伟达被游戏玩家骂得狗血淋头。不过当年的显卡缺货很大程度上是因为不合理的溢价,H100的缺货却是产能实在有限,加价也买不到。换句话说,英伟达还是赚少了。在财报发布当天的电话会议上,“产能”理所当然地成为了最高频词汇。对此,英伟达措辞严谨,不该背的锅坚决不背:“市场份额方面,不是仅靠我们就可以获得的,这需要跨越许多不同的供应商。”实际上,英伟达所说的“许多不同的供应商”,算来算去也就两家:SK海力士和台积电。HBM:韩国人的游戏如果只看面积占比,一颗H100芯片,属于英伟达的部分只有50%左右。在芯片剖面图中,H100裸片占据核心位置,两边各有三个HBM堆栈,加起面积与H100裸片相当。这六颗平平无奇的内存芯片,就是H100供应短缺的罪魁祸首之一。HBM(HighBandwidthMemory)直译过来叫高宽带内存,在GPU中承担一部分存储器之职。和传统的DDR内存不同,HBM本质上是将多个DRAM内存在垂直方向堆叠,这样既增加了内存容量,又能很好的控制内存的功耗和芯片面积,减少在封装内部占用的空间。“堆叠式内存”原本瞄准的是对芯片面积和发热非常敏感的智能手机市场,但问题是,由于生产成本太高,智能手机最终选择了性价比更高的LPDDR路线,导致堆叠式内存空有技术储备,却找不到落地场景。直到2015年,市场份额节节败退的AMD希望借助4K游戏的普及,抄一波英伟达的后路。在当年发布的AMDFiji系列GPU中,AMD采用了与SK海力士联合研发的堆叠式内存,并将其命名为HBM(HighBandwidthMemory)。AMD的设想是,4K游戏需要更大的数据吞吐效率,HBM内存高带宽的优势就能体现出来。当时AMD的RadeonR9FuryX显卡,也的确在纸面性能上压了英伟达Kepler架构新品一头。但问题是,HBM带来的带宽提升,显然难以抵消其本身的高成本,因此也未得到普及。直到2016年,AlphaGo横扫冠军棋手李世石,深度学习横空出世,让HBM内存一下有了用武之地。深度学习的核心在于通过海量数据训练模型,确定函数中的参数,在决策中带入实际数据得到最终的解。理论上来说,数据量越大得到的函数参数越可靠,这就让AI训练对数据吞吐量及数据传输的延迟性有了一种近乎病态的追求,而这恰恰是HBM内存解决的问题。2017年,AlphaGo再战柯洁,芯片换成了Google自家研发的TPU。在芯片设计上,从第二代开始的每一代TPU,都采用了HBM的设计。英伟达针对数据中心和深度学习的新款GPUTeslaP100,搭载了第二代HBM内存(HBM2)。随着高性能计算市场的GPU芯片几乎都配备了HBM内存,存储巨头们围绕HBM的竞争也迅速展开。目前,全球能够量产HBM的仅有存储器三大巨头:SK海力士、三星电子、美光。SK海力士是HBM发明者之一,是目前唯一量产HBM3E(第三代HBM)的厂商;三星电子以HBM2(第二代HBM)入局,是英伟达首款采用HBM的GPU的供应商;美光最落后,2018年才从HMC转向HBM路线,2020年年中才开始量产HBM2。其中,SK海力士独占HBM50%市场份额,而其独家供应给英伟达的HBM3E,更是牢牢卡住了H100的出货量:H100PCIe和SXM版本均用了5个HBM堆栈,H100SSXM版本可达到6个,英伟达力推的H100NVL版本更是达到了12个。按照研究机构的拆解,单颗16GB的HBM堆栈,成本就高达240美元。那么H100NVL单单内存芯片的成本,就将近3000美元。成本还是小问题,考虑到与H100直接竞争的GoogleTPUv5和AMDMI300即将量产,后两者同样将采用HBM3E,陈能更加捉襟见肘。面对激增的需求,据说SK海力士已定下产能翻番的小目标,着手扩建产线,三星和美光也对HBM3E摩拳擦掌,但在半导体产业,扩建产线从来不是一蹴而就的。按照9-12个月的周期乐观预计,HBM3E产能至少也得到明年第二季度才能得到补充。另外,就算解决了HBM的产能,H100能供应多少,还得看台积电的脸色。CoWoS:台积电的宝刀分析师RobertCastellano不久前做了一个测算,H100采用了台积电4N工艺(5nm)生产,一片4N工艺的12寸晶圆价格为13400美元,理论上可以切割86颗H100芯片。如果不考虑生产良率,那么每生产一颗H100,台积电就能获得155美元的收入[6]。但实际上,每颗H100给台积电带来的收入很可能超过1000美元,原因就在于H100采用了台积电的CoWoS封装技术,通过封装带来的收入高达723美元[6]。每一颗H100从台积电十八厂的N4/N5产线上下来,都会运往同在园区内的台积电先进封测二厂,完成H100制造中最为特别、也至关重要的一步——CoWoS。要理解CoWoS封装的重要性,依然要从H100的芯片设计讲起。在消费级GPU产品中,内存芯片一般都封装在GPU核心的外围,通过PCB板之间的电路传递信号。比如下图中同属英伟达出品的RTX4090芯片,GPU核心和GDDR内存都是分开封装再拼到一块PCB板上,彼此独立。GPU和CPU都遵循着冯·诺依曼架构,其核心在于“存算分离”——即芯片处理数据时,需要从外部的内存中调取数据,计算完成后再传输到内存中,一来一回,都会造成计算的延迟。同时,数据传输的“数量”也会因此受限制。可以将GPU和内存的关系比作上海的浦东和浦西,两地间的物资(数据)运输需要依赖南浦大桥,南浦大桥的运载量决定了物资运输的效率,这个运载量就是内存带宽,它决定了数据传输的速度,也间接影响着GPU的计算速度。1980年到2000年,GPU和内存的“速度失配”以每年50%的速率增加。也就是说,就算修了龙耀路隧道和上中路隧道,也无法满足浦东浦西两地物资运输的增长,这就导致高性能计算场景下,带宽成为了越来越明显的瓶颈。CPU/GPU性能与内存性能之间的差距正在拉大2015年,AMD在应用HBM内存的同时,也针对数据传输采用了一种创新的解决方案:把浦东和浦西拼起来。简单来说,2015年的Fiji架构显卡,将HBM内存和GPU核心“缝合”在了一起,把几块小芯片变成了一整块大芯片。这样,数据吞吐效率就成倍提高。不过如上文所述,由于成本和技术问题,AMD的Fiji架构并没有让市场买账。但深度学习的爆发以及AI训练对数据吞吐效率不计成本的追求,让“芯片缝合”有了用武之地。另外,AMD的思路固然好,但也带来了一个新问题——无论HBM有多少优势,它都必须和“缝芯片”的先进封装技术配合,两者唇齿相依。如果说HBM内存还能货比三家,那么“缝芯片”所用的先进封装,看来看去就只有台积电一家能做。CoWoS是台积电先进封装事业的起点,英伟达则是第一个采用这一技术的芯片公司。CoWoS由CoW和oS组合而来:CoW表示ChiponWafer,指裸片在晶圆上被拼装的过程,oS表示on Substrate,指在基板上被封装的过程。传统封装一般只有oS环节,一般在代工厂完成晶圆制造后,交给第三方封测厂解决,但先进封装增加的CoW环节,就不是封测厂能解决的了的。以一颗完整的H100芯片为例,H100的裸片周围分布了多个HBM堆栈,通过CoW技术拼接在一起。但不只是拼接而已,还要同时实现裸片和堆栈间的通信。台积电的CoW区别于其他先进封装的亮点在于,是将裸片和堆栈放在一个硅中介层(本质是一块晶圆)上,在中介层中做互联通道,实现裸片和堆栈的通信。类似的还有英特尔的EMIB,区别在于通过硅桥实现互联。但带宽远不及硅中介层,考虑到带宽与数据传输速率息息相关,CoWoS便成了H100的唯一选择。这便是卡住H100产能的另一只手。虽然CoWoS效果逆天,但4000-6000美元/片的天价还是拦住了不少人,其中就包括富可敌国的苹果。因...PC版:https://www.cnbeta.com.tw/articles/soft/1380411.htm手机版:https://m.cnbeta.com.tw/view/1380411.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人