Intel Xe HPC 架构详解,兼具计算和云游戏加速器双重用途

Intel Xe HPC 架构详解,兼具计算和云游戏加速器双重用途 上回看封装照片,以为也就十几枚晶片封装在一起。结果英特尔愣是拼了47枚以上。动用了 TSMC N5、N7 和 Intel 7 等5种节点工艺,EMIB 互联和 Foveros 堆叠也都用上了。整出一个 一千亿晶体管,45TFLOPS 的 GPU。比 NVIDIA A100的540亿晶体管19.5TFLOPS 高出一倍。 至于HPC这么复杂的拼合,与 A100那种826mm²的大尺寸晶片谁更有优势就不知道了。

相关推荐

封面图片

英特尔 CEO 亲自站台:Intel 18A 优势略高于台积电 N2 工艺

英特尔 CEO 亲自站台:Intel 18A 优势略高于台积电 N2 工艺 基辛格表示 Intel 18A 凭借着良好的晶体管和强大的功率传输,略微领先于 N2。此外台积电的封装成本更高,而英特尔可以提供更有竞争力的价格优势。 台积电呛声:N3P 制程优于 Intel 18A,N2 制程还会扩大领先优势(2023/10/19)

封面图片

Intel 3工艺官方深入揭秘:号称性能飙升18%

Intel 3工艺官方深入揭秘:号称性能飙升18% Intel 3作为现有Intel 4的升级版,带来了更高的晶体管密度和性能,并支持1.2V电压的超高性能应用,不但用于自家产品,还首次开放对外代工,未来多年会持续迭代。首先强调,Intel 3工艺的定位一直就是需要高性能的数据中心市场,重点升级包括改进设计的晶体管、晶体管通孔电阻更低的供电电路、与客户的联合优化等等,还支持0.6V以下的低电压、1.3V以上的高电压,以实现最大负载。为了获得性能、密度的最佳均衡,Intel还同时使用了240nm高性能库、210nm高密度库的组合Intel 4只有前者。客户如果有不同需求,还可以在三种不同的金属堆栈层数中选择:14层的成本最低,18层的性能和成本最均衡,21层的性能最高。此外,Intel 3工艺的EUV极紫外光刻运用更加娴熟,在更多生产工序中使用了EUV。最终的结果是,Intel保证新工艺可以在同等功耗、晶体管密度之下,相比Intel 4带来最多18%的提升!Intel之前还曾表示,Intel 3相比于Intel 4逻辑缩微缩小了约10%(可以理解为晶体管尺寸),每瓦性能(也就是能效)则提升了17%。不过在关键尺寸方面,Intel 3、Intel 4是基本一致的,接触孔多晶硅栅极间距(CPP)都是50nm,鳍片间距、M0间距都是30nm,另外库高度 x CPP的面积除了12K,还增加了10.5K版本,也是为了优化性能和成本平衡。Intel 3后续还会优化推出不同的版本,针对性加强某个角度:Intel 3-T:重点引入采用硅通孔(TSV)技术,针对3D堆叠进行优化。Intel 3-E:扩展更多功能,比如1.2V原生电压、深N阱、长通道模拟设备、射频等,可用于生产芯片组、存储芯片等。Intel 3-PT:在3-E的基础上,增加9微米间距的硅通孔,以及混合键合,性能再提升至少5%,使用也更简单,可用于AI、HPC芯片以及通用计算芯片。 ... PC版: 手机版:

封面图片

1.6nm、晶圆级超级封装、硅光子集成...台积电北美6大技术王炸

1.6nm、晶圆级超级封装、硅光子集成...台积电北美6大技术王炸     研究机构TechInsights报告显示,台积电2023年总销售额达到692.76亿美元,成为全球半导体产业冠军。摩根大通(小摩)、摩根士丹利等金融服务机构均对台积电的后续发展给出乐观预测,小摩在最新报告中认为,台积电在技术创新和先进封装领域的领先地位,以及在AI时代的关键作用,通过一系列技术突破,有望在未来几年继续保持在半导体产业的领先地位。以下为台积电在2024北美论坛公布的六大半导体技术:A16 1.6nm制程技术台积电A16制程节点是其首个整合纳米片晶体管(nanosheet)以及背面供电技术“Super Power Rail”的节点,特别适合高性能计算(HPC)及人工智能(AI)应用,是台积电N2P制程的迭代。根据台积电此前公布的路线图,N2、N2P 2nm节点定于2025年量产,A16预计将于2026年下半年量产。与2nm N2P节点相比,A16提高了晶体管密度和能效,在相同Vdd(正电源电压)下可实现8~10%的速度提升;在相同速度下,功耗可以降低15~20%。该技术可以帮助数据中心计算芯片实现1.07~1.10倍的芯片密度。台积电在北美峰会同时宣布A14工艺节点,预计将采用第二代纳米片晶体管以及更先进的背面供电网络,有望在2027~2028年开始生产,预计不会采用High NA EUV光刻机。根据路线图,台积电1nm制程A10已在规划中。消息人士于2024年1月透露,台积电将更先进制程的1nm晶圆厂规划在嘉义科学园区,已派人前往目标地块勘测。这一选址离嘉义高铁站车程仅七分钟,往北串起台积电中科、竹科厂,往南串连南科厂及高雄厂,便于工程师通勤交流。NanoFlex创新纳米片晶体管台积电即将推出的N2制程工艺将采用NanoFlex创新纳米片晶体管技术,这是该公司在设计与技术协同优化方面的又一突破。NanoFlex为N2制程标准单元提供设计灵活性,其中短小晶体管单元可实现更小的面积和更高能效,而高单元则最大限度提高性能。客户能够在同一设计内优化小单元和大单元的组合,调整设计,以达到最佳功耗、性能和面积平衡。N4C制程技术台积电宣布推出N4C技术,是N4P的迭代,可降低8.5%的芯片成本,计划于2025年量产。该技术提供具有高效面积利用率的基础IP和设计规则,与广泛应用的N4P兼容,缩小芯片尺寸并提高良率,为客户提供高性价比选择。CoWoS、SoIC和系统级晶圆(TSMC-SoW)台积电表示,CoWoS先进封装已成为AI芯片的关键技术,被广泛采用,允许客户将更多的处理器内核与HBM高带宽存储堆叠封装在一起。与此同时,集成芯片系统(SoIC)已成为三维芯片堆叠的领先解决方案,客户正越来越多地将CoWoS与SoIC及其他组件搭配使用,以实现最终的系统级封装(SiP)集成。台积电宣布推出CoW-SoW封装技术(TSMC-SoW),基于台积电于2020年推出的InFO-SoW晶圆上系统集成技术迭代而成。通过晶圆级系统集成封装技术(SoW),可以在单片12英寸晶圆上制造大型芯片阵列,提供更强算力的同时,减少空间占用,并将每瓦性能提升多个数量级。此前特斯拉的Dojo D1超级芯片,就利用台积电的此类工艺实现,利用单片晶圆实现强大算力。据悉,特斯拉自研的Dojo D1超级芯片采用台积电7nm制程,并结合InFO-SoW先进封装、垂直供电结构制造而成,用于训练自动驾驶汽车AI大模型。参数方面,每个模组包含5×5总计25颗芯片,每个单芯片包含高达354个核心,因此片上SRAM换从总计达11GB,算力9050TFLOPS。台积电表示,首款SoW产品基于集成扇出型封装(InFO)技术的纯逻辑晶圆已投入生产。利用CoWoS技术的CoW-SoW晶圆预计将于2027年问世,届时将可以集成SoIC、HBM和其他组件,创建强大的单晶圆级系统,其计算能力可以与整个机架甚至整个服务器相媲美。这类芯片将拥有巨大的面积,可以集成四个SoIC芯片+12个HBM存储芯片以及额外的I/O芯片,功率可达数千瓦。硅光子集成COUPE台积电正在开发紧凑型通用光子引擎(COUPE)技术,以支持人工智能热潮带来的数据传输爆发式增长。COUPE采用SoIC-X芯片堆叠技术,在硅光子芯片堆叠电子芯片,并保证两片芯片之间最低的传输阻抗,能效比传统堆叠方式更高。台积电计划在2025年将COUPE技术用于小尺寸插拔式设备,速度可达1.6Tbps,相比当前最先进的800G以太网成倍提升。2026年,台积电将其整合入CoWoS封装中,作为共同封装光学器件(CPO)直接将光学连接引入封装中,这样可以实现高达6.4Tbps的速度。第三个迭代版本有望进一步改进,速度翻倍至12.8Tbps。汽车芯片先进封装继2023年推出N3AE“Auto Early”制程后,台积电将继续通过整合先进芯片和先进封装,满足汽车客户对更高算力的需求,以及车规级认证的要求。台积电正在为高级辅助驾驶系统(ADAS)、车辆控制和车载中央计算机等应用开发InFO-oS和CoWoS-R解决方案,目标是在2025年第四季度之前获得AEC-Q100 2级认证。日前台积电法说会之后,大摩预计台积电Q2营收将环比增长5%~7%,并给出860元新台币的目标股价预测。小摩预测台积电今年毛利率维持在52%~54%区间,预计今年年底3nm产能将达到10万片规模,明年将增加到15万片,并给出900元新台币的目标股价。小摩同时预计,台积电在未来3~4年内,在AI芯片的市场占有率仍将维持在90%以上,到2027年AI相关收入占比将升至总营收的25%。台积电法说会、多场技术论坛过后,给市场释出稳健信号,包括花旗银行、美银证券、瑞银在内的金融机构,均对台积电给出全年营收增长的预测。在人工智能市场需求持续增长的带动下,以及美日芯片工厂新产能的释放,预计台积电未来几年将持续领衔全球半导体产业,并凭借技术实力保持AI芯片领域的龙头地位。 ... PC版: 手机版:

封面图片

Intel正式发布至强6:288个E核、128个P核交相辉映

Intel正式发布至强6:288个E核、128个P核交相辉映 一是代号Sierra Forest、E核设计的至强6000E系列,包括6700E/6900E;二是代号Granite Rapids、P核设计的至强6000P系列,包括6900P/6700P/6500P/6300P。至强6没有采用消费级酷睿P核+E核的异构架构设计,而是分成了两个不同的体系,原因在于服务器、数据中心、网络、边缘等领域的需求是截然不同的。P核架构的Granite Ridge一如传统至强,针对计算密集型应用、AI负载等需要尽可能高性能的应用做优化。E核架构的Sierra Forest则面向高密度、可扩展负载等非常在意高能效的应用做优化。同时,二者在硬件平台、软件开发堆栈上彼此共享,可以说是分工不分家。【架构技术篇】为了分出P核、E核两条路,至强6从底层架构到堆叠封装都做了全新的设计,扩展性更强大、更灵活,因此在核心数量上实现了前所未有的飞跃。四代至强(Sapphire Rapids)是四个对等模块(Tile),五代至强(Emerald Rapids)精简为两个对等模块,但规格显著提升。至强6调整为一个或多个核心计算模块,搭配固定的两个IO输入输出与互连模块。不同模块之间采用EMIB封装组合,提供高带宽、低功耗、低延迟的互连通道。其中,计算模块包含了CPU核心、各级缓存、内存控制器。它采用最新的Intel 3制造工艺,可以视为酷睿Ultra使用的Intel 4的升级版本,专为至强优化增强。IO模块包含PCIe、UPI、CXL等连接总线控制器,以及DSA、IAA、QAT、DLB等加速器引擎。它采用成熟的Intel 7工艺制造,不需要太多的晶体管和太小的面积,也能有效控制成本。至强6700系列可以视为“基础款”,E核版本也就是6700E系列是单个计算模块,最多144核心(144线程)。P核版本则有三种配置,顶级的XCC是两个计算模块,最多86核心(192线程);中间的HCC是一个计算模块,最多48核心;然后LCC是一个较小的计算模块,最多16核心。注意,E核不支持超线程,P核支持超线程,不再一一注明。至强6900系列则是“加强版”,E核版本的ZCC封装两个计算模块,核心数翻番做到288个(288线程),但要到明年初才能看到,也就是6900E系列。P核版本的UCC更是三个计算模块,核心数达128个(256线程),今年第三季度推出,成为6900P系列。【型号规格篇】至强6是一个庞大的家族,打头阵的时E核设计的基础版至强6700E系列,共有七款不同型号。旗舰型号至强6780E,144核心(144线程),双路就是288核心,三级缓存108MB(平均每个核心0.75MB),频率并不高,基准只有2.2GHz,全核睿频、单核睿频最高都是3.0GHz,热设计功耗达330W。内存支持8通道的DDR5-6400,内置加速器DSA、IAA、QAT、DLB都是两个,支持2048个TDX密钥,还有4条UPI 2.0总线、88条PCIe 5.0/CXL 2.0总线。至强6766E也是144核心,但降低了频率只1.9-2.7GHz,热设计功耗250W。其他型号就不一一赘述了,包括128/112/96/64个核心,主频最高也不过3.2GHz,三级缓存统一96MB。热设计功耗205-250W不等,单双路配置、内存频率、加速器数量、UPI总线数量等也做了不同区分。另外,144/96/64核心的四款型号提供超过7年的超长生命周期支持。未来产品的具体型号没有公布,但给出了大体规格。至强6700P P核版本最多86核心,支持1/2/4/8路并行(单系统最多688核心1376线程),内存最高8通道DDR5-8000,热设计功耗最高350W。至强6900P最多128核心(256线程),但仅支持单双路并行(单系统最多256核心),内存最高12通道DDR5-8800,并提供最多96条PCIe 5.0/CXL 2.0总线、6条UPI 2.0总线,热设计功耗最高可达500W。至强6900E最多达到空前的288个核心(288线程),内存频率最高只有DDR5-6400,其他和至强6900P基本一致。【性能对比篇】接下来就该说说性能了,不过这种产品很难上手实测,只能看看官方宣传数据了。至强6 E核版本替代的是五年左右之前的老平台,比如二代至强,网络与微服务性能提升最多2.6倍,媒体性能提升最多2.6倍,数据服务性能提升最多2.7倍,网络性能提升最多3.4倍,多媒体转码性能提升最多4.2倍。至强6 P核版本则面向代际升级,AI性能提升最多2倍,通用计算性能提升最多2倍,HPC高性能计算性能提升最多2.3倍。当然,考虑到四代至强是去年初发布的,五代至强是去年底发布的,这节奏属实有点太快了。至强6700E最大的好处就是计算密度非常高,用来取代二代至强,同样的性能下可以将占用空间从220个机架减少到66个。同时可以节省大量的能耗,官方数据称4年时间可节能8.4万兆瓦,相当于减少3.4万公吨的二氧化碳排放量。对比竞品AMD EPYC,官方称P核版本的双路至强6 128核心,对比双路EPYC 9654 96核心,AI推理性能领先最多3.7倍。E核版本的双路至强6756E 128核心,对比双路EPYC 9534 64核心,媒体转码性能领先最多1.3倍。至强6 E核版本对比二代至强的提升。至强6 E核版本对比五代至强的提升。至强6 E核版本对比五代至强的能效提升:综合性能提升18%的同时,40-60%利用率区间的节能效果最好,最多280W。 ... PC版: 手机版:

封面图片

黄仁勋抛出2700W功耗的真核弹 还有240TB显存的AI超级计算机

黄仁勋抛出2700W功耗的真核弹 还有240TB显存的AI超级计算机 Blackwell B200 GPU首次采用了chiplet晶粒封装,包含两颗B100,而B200之间再通过带宽翻倍达1.8TB/s的第五代NVLink 5总线互连,最多可连接576块。B100采用专门定制的台积电4NP工艺制造(H100/RTX 40 4N工艺的增强版),已经达到双倍光刻极限尺寸,彼此通过10TB/s带宽的片间互联带宽,连接成一块统一的B200 GPU。B100集成多达1040亿个晶体管,比上代H100 800亿个增加了足足30%,B200整体就是2080亿个晶体管。核心面积未公布,考虑到工艺极限应该不会比814平方毫米的H100大太多。CUDA核心数量也没说,但肯定会大大超过H100 16896个,不知道能不能突破2万个?每颗B100连接四颗24GB HBM3E显存/内存,等效频率8GHz,位宽4096-bit,带宽达4TB/s。如此一来,B200就有多达192GB HBM3E,总位宽8096-bit,总带宽8TB/s,相比H100分别增加1.4倍、58%、1.4倍。性能方面,B200新增支持FP4 Tensor数据格式,性能达到9PFlops(每秒9千万亿次),INT/FP8、FP16、TF32 Tensor性能分别达到4.5、2.25、1.1PFlops,分别提升1.2倍、1.3倍、1.3倍,但是FP64 Tensor性能反而下降了40%(依赖GB200),FP32、FP64 Vector性能则未公布。Blackwell GPU还支持第二代Transformer引擎,支持全新的微张量缩放,在搭配TensorRT-LLM、NeMo Megatron框架中的先进动态范围管理算法,从而在新型4位浮点AI推理能力下实现算力和模型大小的翻倍。其他还有RAS可靠性专用引擎、安全AI、解压缩引擎等。至于功耗,B100控制在700W,和上代H100完全一致,B200则首次达到了1000W。NVIDIA宣称,Blackwell GPU能够在10万亿参数的大模型上实现AI训练和实时大语言模型推理。GB200 Grace Blackwell是继Grace Hopper之后的新一代超级芯片(Superchip),从单颗GPU+单颗CPU升级为两颗GPU加一颗CPU,其中GPU部分就是B200,CPU部分不变还是Grace,彼此通过900GB/s的带宽实现超低功耗片间互联。在大语言模型推理工作负载方面,GB200超级芯片的性能对比H100提升了多达30倍。不过代价也很大,GB200的功耗最高可达2700W,可以使用分冷,更推荐使用液冷。基于GB200超级芯片,NVIDIA打造了新一代的AI超级计算机“DGX SuperPOD”,配备36块超级芯片,也就是包含36颗Grace CPU、72颗B200 GPU,彼此通过NVLink 5组合在一起,还有多达240TB HBM3E。这台AI超级计算机可以处理万亿参数的大模型,能保证超大规模生成式AI训练和推理工作负载的持续运行,FP4精度下的性能高达11.5EFlops(每秒1150亿亿次)。DGX SuperPOD还具有极强的扩展性,可通过Quantum-X800 InfiniBand网络连接,扩展到数万颗GB200超级芯片,并加入BlueField-3 DPU数据处理单元,而每颗GPU都能获得1.8TB/s的高带宽。第四代可扩展分层聚合和规约协议(SHARP)技术,可提供14.4TFlops的网络计算能力,比上代提升4倍。此外,NVIDIA还发布了第六代通用AI超级计算平台“DGX B200”,包含两颗Intel五代至强处理器、八颗B200 GPU,具备1.4TB HBM3E、64TB/s带宽,FP4精度性能144PFlops(每秒14亿亿次),万亿参数模型实时推理速度提升15倍。DGX B200系统还集成八个NVIDIA ConnectX-7网卡、两个BlueField-3 DPU高性能网络,每个连接带宽高达400Gb/s,可通过Quantum-2 InfiniBand、Spectrum?-X以太网网络平台,扩展支持更高的AI性能。基于Blackwell GPU的产品将在今年晚些时候陆续上市,亚马逊云、戴尔、谷歌、Meta、微软、OpenAI、甲骨文、特斯拉、xAI等都会采纳。亚马逊云、谷歌云、微软Azeure、甲骨文云将是首批提供Blackwell GPU驱动实例的云服务提供商,NVIDIA云合作伙伴计划的中的Applied Digital、CoreWeave、Crusoe、IBM Cloud、Lambda也将提供上述服务。Indosat Ooredoo Hutchinson、Nebius、Nexgen Cloud、甲骨文欧盟主权云、甲骨文美国/英国/澳大利亚政府云、Scaleway、新加坡电信、Northern Data Group旗下的Taiga Cloud、Yotta Data Services旗下的Shakti Cloud、YTL Power International 等主权AI云,也将提供基于Blackwell架构的云服务和基础设施。 ... PC版: 手机版:

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人