英特尔,如何玩转Chiplet?
英特尔,如何玩转Chiplet?它的前一代产品SapphireRapids(SPR)有4个较小的die。与直觉相反,英特尔将其最高核心数配置中的小芯片数量从4个减少到2个。这会让大多数人摸不着头脑,因为包括英特尔在内的每个人都在谈论使用更小的die来分解小芯片以提高产量和扩展性能。本文中,我们将更深入地了解英特尔对EmeraldRapids(EMR)所做的具体更改。我们将查看我们创建的平面图,详细说明工作负载性能、成本比较以及与AMD的竞争环境。此外,我们将详细介绍SapphireRapids发生的巨大变化,但大多数人都忽视了这一变化。EmeraldRapids的变化英特尔这一代产品最大的变体EMR-XCC,将核心数从SPR上的60个增加到64个。然而,封装上共有66个物理内核,它们被分类以提高良率。英特尔并不打算像他们对60核SPR所做的那样,将完全启用的66核EMRSKU产品化。EMR结合了两个33核die,而SPR使用四个15核die。另一个主要变化是英特尔显著增加了共享L3缓存,从SPR上的每个内核1.875MB到EMR上高达5MB的每个内核!这意味着高端SKU在所有内核中都配备了320MB的共享L3缓存,是SPR提供的最大值的2.84倍。LocalSnoopFilters和RemoteSnoopFilters也相应增加,以适应大型L3缓存的增加(LSF–3.75MB/核心,RSF–1MB/核心)。DDR5内存支持已从4800MT/s增加到5600MT/s。插槽间通信(inter-socket)的UPI速度已从16GT/s升级到20GT/s。奇怪的是,尽管插槽间速度更高,但支持的插槽总数从8个减少到2个。这样做可能是为了加快上市时间,因为它只影响AMD无论如何都没有参与竞争的一小部分市场。所有这些都与同一LGA4677SocketE1上的现有“EagleStream”平台直接兼容。PCIe通道数保持不变,尽管最终添加了CXL分叉支持,这对SapphireRapids来说是一个痛处。仔细观察封装,我们注意到英特尔能够将更多内核和更多缓存塞入比SPR更小的区域!包括划线(scribelines)在内,两个763.03平方毫米的裸片总面积为1,526.05平方毫米,而SPR使用四个393.88平方毫米的裸片,总面积为1,575.52平方毫米。EMR缩小了3.14%,但印刷内核(printedcores)增加了10%,L3缓存增加了2.84倍。这一令人印象深刻的壮举部分是通过减少小芯片的数量实现的。当然,还有其他因素在起作用,有助于减少EMR的面积。在为EMR画平面图模型时,我们发现不可能将必要的功能塞进一个足够小的区域以匹配Intel所揭示的内容。我们使用SPR中的组件作为参考,但它最终变得太大了。这是因为英特尔优化了其物理设计,使一些功能更加紧凑和面积效率更高,从而进一步缩小面积。更重要的是,这不是英特尔第一次改变物理设计以节省面积。SapphireRapids的die微缩尽管没有太多公开讨论,英特尔还在生产E5步进过程中最黑暗的日子里对SapphireRapids进行了彻底的重新设计。信不信由你,SapphireRapids小芯片有两种不同的物理设计和芯片尺寸。RajaKoduri在2021年架构日展示了更大、更早的SPR版本,并且还出现在第三方拆解的早期工程样本的第中。更小、更新的SPR变体在Vision2022上展示,它被最终生产SKU使用。英特尔展示了两个版本的SPR的晶圆。较早的修订版每个晶圆有137个裸片,而最终版本有148个。这需要一直回到芯片的平面规划和物理设计。一个主要的好处是,它通过在每个晶圆上多制造8%的裸片,改善了SapphireRapids的成本结构。在长期提出期间所做的大量硅修改中,我们发现英特尔改变了核心和外围的物理设计和布局,以实现5.7%的面积减少。I/O区域(NorthCap)已重新实现,die高度减少了0.46毫米。I/O块之间的水平间距也得到了优化,die宽度节省了0.46毫米。容纳CPU核心、高速缓存和内存控制器的网状区块区域也必须缩小3.43%的面积以适应更紧凑的布局规划,同时调整减少CPU核心宽度和tile间距。一般来说,设计团队在发布前为同一产品制作2种不同布局和裸片尺寸的情况很少见,因为上市时间至关重要。也许SapphireRapids的多次延误给了他们足够的时间来寻求额外的面积节省。如果它是按照最初的2021年目标推出的,我们可能不会看到这个较小的修订版,至少在最初是这样。同样,英特尔对EMR应用了相同的布局优化原则,特别是在容纳巨大的L3时。在这里,我们展示了对核心和meshtile进行更改的模型,包括在核心上方明显更高的SRAM部分,以容纳额外的L3缓存和SnoopFilters。这样一来,每个核心tile的面积增加了11.8%。得益于SRAM物理设计的优化,英特尔能够容纳3200KB以上的L3缓存以及更大的LSF,并通过仅增加1.41mm²来将RSF翻倍。EmeraldRapids的平面图以下是EMR-XCC的平面布置图。在两个die中,66核加上I/O部分在7x14网状互连网络上捆绑在一起。在中间,网状网络在EMIB上跨越片外边界(off-chipboundary)7次。这与SPR上跨四个芯片的8x12网格和20个芯片外交叉点形成对比。此拓扑更改的影响将在下面的性能部分中介绍。从上面显示的布局中,我们可以看出,尽管这两个小芯片非常相似,但它们实际上使用了不同的流片和掩模组,英特尔再次像SPR那样使用镜像芯片。使用旋转180度的相同裸片将使掩模组要求减半,但会使跨EMIB的多裸片结构IO复杂化。说到EMIB,硅桥(siliconbridges)的数量从10个大幅减少到3个,中间的硅桥更宽以适应3个网格柱。奇数个网格列也出现在单片版本的SPR上,这也可能是他们必须对die进行镜像的部分原因,因为旋转会干扰对齐并使导线交叉复杂化。通过这种新布局,我们可以看到小芯片重新聚合的真正好处。用于小芯片接口的总面积百分比从SPR上的总die面积的16.2%变为EMR上的仅5.8%。或者,我们可以查看核心区域利用率,即总die面积中有多少用于计算核心和缓存。这从SPR的50.67%上升到EMR的好得多的62.65%。这一收益的部分原因还在于EMR上较少的物理IO,因为SPR具有更多的PCIe通道,这些通道仅在单插槽工作站段上启用。如果您的良率很好,为什么在可以使用更少、更大的裸片时浪费冗余IO和小芯片互连的面积?英特尔传奇的10nm工艺从2017年的以来已经走了很长一段路,现在在其更名后的intel7形式中取得了相当不错的成绩。成本,不是你想的那样所有这些关于布局优化和在更小的总硅面积中塞入更多内核和缓存的讨论会让您相信EMR的制造成本低于SPR。事实并非如此。从根本上说,大矩形不能整齐地放在圆形晶圆上。回到每个晶圆的裸片总数,我们估计EMR-XCC晶圆布局与SPR-MCC相匹配,这意味着每个晶圆有68个裸片。假设完美的良率和芯片可回收性,EMR只能在每个晶圆上制造34个CPU,低于每个SPR晶圆上的37个CPU。一旦将完美良率以外的任何因素考虑在内,EMR的情况就会变得更糟,这表明使用更大die的劣势。尽管每个CPU使用的硅面积较少,但EMR实际上的生产成本高于SPR。公平地说,如果我们要将布局更改的好处与成本隔离开来,我们应该将EMR与每核5MBL3的假设SPR进行比较。对于这个4小芯片变体,根据这个更高的理论芯片的面积估计导致每个晶圆有136个总die或每个晶圆有34个CPU,使其与实际的2小芯片设计相同。此外,将EMIB芯片的数量从10个减少到3个肯定会提高2-chiplet解决方案的封装成本和产量。那么,如果布局变化和小芯片减少对降低成本没有帮助,那么EMR的主要驱动因素是什么?...PC版:https://www.cnbeta.com.tw/articles/soft/1358105.htm手机版:https://m.cnbeta.com.tw/view/1358105.htm