英特尔展示首次全面融合的Optical I/O Chiplet

英特尔展示首次全面融合的OpticalI/OChiplet英特尔的OCI芯片组通过在数据中心和高性能计算(HPC)应用的新兴AI基础设施中实现共同封装的光输入/输出(I/O),代表了高带宽互连的一次飞跃。英特尔称,我们在融合光电科技到高速数据传输方面实现一个革命性的里程碑。功能方面,这款首款OCI芯片支持64个独立通道,每个通道能够以32千兆位/秒(Gbps)的速率传输数据,并在长达100米的光纤上高效传输数据,有望满足AI基础设施对更高带宽、更低功耗和更长传输距离日益增长的需求。它增强了集群中CPU与GPU之间的连接,并支持创新的计算架构,如一致性内存扩展和资源解耦。新一代光学I/O技术推动了计算平台的革新,以适应日益增长的AI工作负载随着AI技术的飞速发展,自动驾驶、高级数据分析和虚拟助手等应用在全球范围内日益普及,对计算资源的需求急剧增加。特别是大型语言模型如GPT,以及生成式AI技术的快速发展,极大地推动了AI技术的应用。然而,这些先进的AI模型需要处理和生成的数据量巨大,对计算资源和数据传输提出了极高的要求。随着机器学习模型的规模不断扩大,它们在AI加速工作中的作用也变得越来越复杂,需要极高的计算能力和数据处理能力才能有效运行。这种对高性能计算平台的需求正在推动输入/输出(I/O)带宽的指数级增长和数据传输距离的延伸。为了应对这一挑战,数据中心正在向更大的处理单元集群,如CPU、GPU和IPU的使用,以及更高效的资源利用架构,如xPU解耦和内存池化方向发展。这些技术的实施将提高处理效率,降低系统延迟,并优化资源配置,从而支持更广泛的AI计算和应用。尽管传统的电子I/O系统在传输大量数据时表现出高带宽密度和低功耗的优点,但其最大的弱点是传输距离短,通常仅限于一米内。这严重限制了数据中心内部的设备布局,使得组件之间的连接受到严格的空间限制。为了突破这一限制,数据中心和早期AI集群开始采用可插拔光学模块技术,这种技术能够提供比电子I/O更长的传输距离。然而,随着AI应用对资源的不断增加,光学模块在成本和能耗方面的压力也随之增大。为了应对这些挑战,新一代光学I/O技术应运而生。这种技术将光学I/O与处理器(如CPU、GPU或IPU等,统称为xPU)共封装,不仅大幅提高了带宽,还优化了芯片内部的光和电信号传输,显著降低了能量消耗,还大幅减少了数据传输过程中的延迟,对于需要快速响应的AI应用来说至关重要。更令人兴奋的是,这项技术支持的传输距离远超以往,为数据中心的设计提供了更大的灵活性,使得系统能够适应更广泛的扩展需求。光学I/O技术的推广不仅解决了数据传输的痛点,也为AI和机器学习的未来发展铺平了道路。打个比方,传统的电子I/O连接,类似于旧式马车,在短距离传输中效率较高,但面对大量数据的长距离传输需求时,却显得力不从心。而英特尔的OCI芯片等光学I/O技术,如同现代的汽车和卡车,不仅能在更长的距离上传输更多的数据,而且保持数据的完整性,大大超越了传统电子I/O的性能。随着AI和ML模型需求的不断扩大,光学I/O凭借其卓越的传输能力和高效能源利用,成为推动未来AI技术发展的关键力量。就像汽车和卡车满足了现代社会对快速、大规模物流的需求一样,光学I/O使得数据能够更快、更高效地在更长的距离上传输,这对于扩展AI基础设施至关重要。英特尔在硅光子学领域处于领导地位凭借超过25年的深厚研究基础,英特尔实验室在集成光子学领域取得了开创性的成就。英特尔不仅是首家成功开发并大规模生产硅光子连接产品的企业,更是以其卓越的产品可靠性,赢得了全球主要云服务提供商的信赖。英特尔的核心竞争力在于其独特的混合激光器晶圆上技术和直接集成工艺,这些技术不仅提高了产品的可靠性,还降低了成本。这种独特的方法使得英特尔能够在保持高效率的同时,提供卓越的性能。到目前为止,英特尔的强大生产平台已经出货超过800万片集成电路芯片,这些芯片集成了超过3200万个芯片级激光器。其激光器的故障率极低(故障率小于0.1),这一指标在业界广泛认可,表明故障率极低。这些芯片被封装在可插拔的收发器模块中,并在大型数据中心网络中得到部署,服务于多家大型云服务提供商,用于100Gbps、200Gbps和400Gbps的应用。目前,英特尔还在开发下一代200Gbps每通道的芯片,以支持即将到来的800Gbps和1.6Tbps的应用。在制造工艺上,英特尔引入了全新的硅光子制造工艺节点,这一工艺不仅提升了设备性能,还实现了更高的集成度和更佳的耦合效率,同时显著降低了成本。英特尔在芯片激光器和SOA性能、成本控制以及能效优化方面不断取得突破,芯片面积减少了超过40%,能耗降低了超过15%,进一步巩固了其在硅光子技术领域的领先地位。英特尔目前的OCI芯片模块尚处于原型阶段。展望未来,英特尔正在与特定客户合作,将OCI与他们的系统级芯片(SoCs)一起封装,开发一种创新的光学输入/输出解决方案。...PC版:https://www.cnbeta.com.tw/articles/soft/1436206.htm手机版:https://m.cnbeta.com.tw/view/1436206.htm

相关推荐

封面图片

英特尔,如何玩转Chiplet?

英特尔,如何玩转Chiplet?它的前一代产品SapphireRapids(SPR)有4个较小的die。与直觉相反,英特尔将其最高核心数配置中的小芯片数量从4个减少到2个。这会让大多数人摸不着头脑,因为包括英特尔在内的每个人都在谈论使用更小的die来分解小芯片以提高产量和扩展性能。本文中,我们将更深入地了解英特尔对EmeraldRapids(EMR)所做的具体更改。我们将查看我们创建的平面图,详细说明工作负载性能、成本比较以及与AMD的竞争环境。此外,我们将详细介绍SapphireRapids发生的巨大变化,但大多数人都忽视了这一变化。EmeraldRapids的变化英特尔这一代产品最大的变体EMR-XCC,将核心数从SPR上的60个增加到64个。然而,封装上共有66个物理内核,它们被分类以提高良率。英特尔并不打算像他们对60核SPR所做的那样,将完全启用的66核EMRSKU产品化。EMR结合了两个33核die,而SPR使用四个15核die。另一个主要变化是英特尔显著增加了共享L3缓存,从SPR上的每个内核1.875MB到EMR上高达5MB的每个内核!这意味着高端SKU在所有内核中都配备了320MB的共享L3缓存,是SPR提供的最大值的2.84倍。LocalSnoopFilters和RemoteSnoopFilters也相应增加,以适应大型L3缓存的增加(LSF–3.75MB/核心,RSF–1MB/核心)。DDR5内存支持已从4800MT/s增加到5600MT/s。插槽间通信(inter-socket)的UPI速度已从16GT/s升级到20GT/s。奇怪的是,尽管插槽间速度更高,但支持的插槽总数从8个减少到2个。这样做可能是为了加快上市时间,因为它只影响AMD无论如何都没有参与竞争的一小部分市场。所有这些都与同一LGA4677SocketE1上的现有“EagleStream”平台直接兼容。PCIe通道数保持不变,尽管最终添加了CXL分叉支持,这对SapphireRapids来说是一个痛处。仔细观察封装,我们注意到英特尔能够将更多内核和更多缓存塞入比SPR更小的区域!包括划线(scribelines)在内,两个763.03平方毫米的裸片总面积为1,526.05平方毫米,而SPR使用四个393.88平方毫米的裸片,总面积为1,575.52平方毫米。EMR缩小了3.14%,但印刷内核(printedcores)增加了10%,L3缓存增加了2.84倍。这一令人印象深刻的壮举部分是通过减少小芯片的数量实现的。当然,还有其他因素在起作用,有助于减少EMR的面积。在为EMR画平面图模型时,我们发现不可能将必要的功能塞进一个足够小的区域以匹配Intel所揭示的内容。我们使用SPR中的组件作为参考,但它最终变得太大了。这是因为英特尔优化了其物理设计,使一些功能更加紧凑和面积效率更高,从而进一步缩小面积。更重要的是,这不是英特尔第一次改变物理设计以节省面积。SapphireRapids的die微缩尽管没有太多公开讨论,英特尔还在生产E5步进过程中最黑暗的日子里对SapphireRapids进行了彻底的重新设计。信不信由你,SapphireRapids小芯片有两种不同的物理设计和芯片尺寸。RajaKoduri在2021年架构日展示了更大、更早的SPR版本,并且还出现在第三方拆解的早期工程样本的第中。更小、更新的SPR变体在Vision2022上展示,它被最终生产SKU使用。英特尔展示了两个版本的SPR的晶圆。较早的修订版每个晶圆有137个裸片,而最终版本有148个。这需要一直回到芯片的平面规划和物理设计。一个主要的好处是,它通过在每个晶圆上多制造8%的裸片,改善了SapphireRapids的成本结构。在长期提出期间所做的大量硅修改中,我们发现英特尔改变了核心和外围的物理设计和布局,以实现5.7%的面积减少。I/O区域(NorthCap)已重新实现,die高度减少了0.46毫米。I/O块之间的水平间距也得到了优化,die宽度节省了0.46毫米。容纳CPU核心、高速缓存和内存控制器的网状区块区域也必须缩小3.43%的面积以适应更紧凑的布局规划,同时调整减少CPU核心宽度和tile间距。一般来说,设计团队在发布前为同一产品制作2种不同布局和裸片尺寸的情况很少见,因为上市时间至关重要。也许SapphireRapids的多次延误给了他们足够的时间来寻求额外的面积节省。如果它是按照最初的2021年目标推出的,我们可能不会看到这个较小的修订版,至少在最初是这样。同样,英特尔对EMR应用了相同的布局优化原则,特别是在容纳巨大的L3时。在这里,我们展示了对核心和meshtile进行更改的模型,包括在核心上方明显更高的SRAM部分,以容纳额外的L3缓存和SnoopFilters。这样一来,每个核心tile的面积增加了11.8%。得益于SRAM物理设计的优化,英特尔能够容纳3200KB以上的L3缓存以及更大的LSF,并通过仅增加1.41mm²来将RSF翻倍。EmeraldRapids的平面图以下是EMR-XCC的平面布置图。在两个die中,66核加上I/O部分在7x14网状互连网络上捆绑在一起。在中间,网状网络在EMIB上跨越片外边界(off-chipboundary)7次。这与SPR上跨四个芯片的8x12网格和20个芯片外交叉点形成对比。此拓扑更改的影响将在下面的性能部分中介绍。从上面显示的布局中,我们可以看出,尽管这两个小芯片非常相似,但它们实际上使用了不同的流片和掩模组,英特尔再次像SPR那样使用镜像芯片。使用旋转180度的相同裸片将使掩模组要求减半,但会使跨EMIB的多裸片结构IO复杂化。说到EMIB,硅桥(siliconbridges)的数量从10个大幅减少到3个,中间的硅桥更宽以适应3个网格柱。奇数个网格列也出现在单片版本的SPR上,这也可能是他们必须对die进行镜像的部分原因,因为旋转会干扰对齐并使导线交叉复杂化。通过这种新布局,我们可以看到小芯片重新聚合的真正好处。用于小芯片接口的总面积百分比从SPR上的总die面积的16.2%变为EMR上的仅5.8%。或者,我们可以查看核心区域利用率,即总die面积中有多少用于计算核心和缓存。这从SPR的50.67%上升到EMR的好得多的62.65%。这一收益的部分原因还在于EMR上较少的物理IO,因为SPR具有更多的PCIe通道,这些通道仅在单插槽工作站段上启用。如果您的良率很好,为什么在可以使用更少、更大的裸片时浪费冗余IO和小芯片互连的面积?英特尔传奇的10nm工艺从2017年的以来已经走了很长一段路,现在在其更名后的intel7形式中取得了相当不错的成绩。成本,不是你想的那样所有这些关于布局优化和在更小的总硅面积中塞入更多内核和缓存的讨论会让您相信EMR的制造成本低于SPR。事实并非如此。从根本上说,大矩形不能整齐地放在圆形晶圆上。回到每个晶圆的裸片总数,我们估计EMR-XCC晶圆布局与SPR-MCC相匹配,这意味着每个晶圆有68个裸片。假设完美的良率和芯片可回收性,EMR只能在每个晶圆上制造34个CPU,低于每个SPR晶圆上的37个CPU。一旦将完美良率以外的任何因素考虑在内,EMR的情况就会变得更糟,这表明使用更大die的劣势。尽管每个CPU使用的硅面积较少,但EMR实际上的生产成本高于SPR。公平地说,如果我们要将布局更改的好处与成本隔离开来,我们应该将EMR与每核5MBL3的假设SPR进行比较。对于这个4小芯片变体,根据这个更高的理论芯片的面积估计导致每个晶圆有136个总die或每个晶圆有34个CPU,使其与实际的2小芯片设计相同。此外,将EMIB芯片的数量从10个减少到3个肯定会提高2-chiplet解决方案的封装成本和产量。那么,如果布局变化和小芯片减少对降低成本没有帮助,那么EMR的主要驱动因素是什么?...PC版:https://www.cnbeta.com.tw/articles/soft/1358105.htm手机版:https://m.cnbeta.com.tw/view/1358105.htm

封面图片

【英特尔和谷歌云推出共同开发的芯片】

【英特尔和谷歌云推出共同开发的芯片】10月12日消息,英特尔(INTC.O)和谷歌(GOOG.O、GOOGL.O)共同设计了一款名为E2000的新型定制基础设施处理器(IPU)芯片,以减少数据中心主CPU的负荷,并更有效安全地处理数据密集型云工作负载。E2000IPU将用于部署在公有云中的谷歌的新C3虚拟内存系统(VMs)。虚拟机将使用英特尔的第4代XeonScalable处理器来运行工作负载,而高速数据包处理将由E2000芯片处理。英特尔高级副总裁NickMcKeown称,英特尔和谷歌的合作使客户能够用上更安全、更灵活和更性能的基础设施。

封面图片

微软将利用英特尔 18A 技术生产芯片

微软将利用英特尔18A技术生产芯片微软(MSFT.O)和英特尔(INTC.O)在周三的一次活动上说,微软计划使用英特尔的18A制造技术来生产即将推出的芯片。他们没有透露具体是什么产品,但微软最近宣布了两款自主研发芯片的计划:一款计算机处理器和一款人工智能加速器。英特尔一直在寻求证明自己有能力在代工市场竞争,对于这家半导体行业的先驱来说,这是一个重大转变。与此同时,微软正在寻求稳定的半导体供应,为其数据中心运营提供动力,尤其是在人工智能需求增长的情况下。设计自己的芯片还可以让微软根据自己的具体需求对产品进行微调。

封面图片

英特尔 展示首个全集成光计算互连芯粒

英特尔展示首个全集成光计算互连芯粒光计算互连(OCI)芯粒由带有片上DWDM(密集波分复用)激光器和SOA(半导体光放大器)的硅光子集成电路(PIC)以及包含完整光I/O子系统电子设备部分的电气集成电路(EIC)组成。8个光纤对,32Gbps×64通道,双向共计4Tb,传输距离100米,能量效率5pJ/bit。

封面图片

英特尔将为微软代工其自研芯片

英特尔和微软周三宣布了芯片代工合作,微软将使用英特尔的18A技术制造其自研芯片。英特尔过去几年一直在推动其芯片代工业务,但进展缓慢,与行业巨头台积电还相去甚远。芯片巨人的代工业务被称为IntelFoundry,上一财季收入2.91亿美元,英特尔认为该业务未来能达到150亿美元,而台积电上一财季收入为196亿美元。微软去年底透露了台积电代工的自研芯片——AI芯片Maia100和云计算处理器Cobalt100。目前不清楚英特尔会为其代工哪款芯片。via匿名标签:#英特尔#微软#芯片频道:@GodlyNews1投稿:@GodlyNewsBot

封面图片

TechTour 2022:英特尔披露VPU时间表 13代芯片首试 14代全面集成

TechTour2022:英特尔披露VPU时间表13代芯片首试14代全面集成由TECHnalysis的@bobodtech在Twitter上分享的内容可知:英特尔即将在13代RaptorLake移动芯片上引入一项全新的AIBoost技术,并且计划在14代MeteorLakeCPU上全面集成。此前,我们已得知该公司在14代芯片上配备适用于各种AI任务的多功能处理单元。但在TechTour2022活动期间,英特尔证实了该技术将在13代芯片上首次亮相。PC版:https://www.cnbeta.com/articles/soft/1315971.htm手机版:https://m.cnbeta.com/view/1315971.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人