Intel Lunar Lake架构全公开:功耗大降40%、E核性能飙升4倍

IntelLunarLake架构全公开:功耗大降40%、E核性能飙升4倍现在,Intel完全公开了LunarLake的架构设计细节,涵盖模块化结构、封装工艺、P性能核、E能效核、混合架构与线程调度、GPU核显、NPUAI引擎、平台连接等部分。我们逐一来看。【模块化与封装】首先说一句,Intel尚未明确公布LunarLake的制造工艺,目前第三方说法是主要采用台积电N3B,也就是台积电第二代3nm。不过Intel强调,如今的处理器设计理念是架构、工艺彼此99%的解耦分离,不再互相依赖,可以各自独立推进路线图。LunarLake延续了MeteorLake的分离式模块化设计,但又截然不同,首先是简化为计算模块(ComputeTile)、平台控制器模块(PlatformControllerTile)两大部分,角落里还有个填料模块(FillerTile),不具备实际电路和功能,只是将整体凑成一个方形以保证结构强度。它们通过底部的基础模块,结合Foveros封装工艺,组合在一起。其次,LunarLake还整合封装了两颗内存。计算模块内包含最多四个P核、最多四个E核、GPU核显、媒体引擎、显示引擎、IPU图像处理单元、NPUAI单元、NOC、MSC(内存侧缓存)等。其中,MSC缓存最大容量8MB,独立于二三级缓存,主要用于IO引擎的缓存配合,可以减少对系统内存的依赖,提升延迟与带宽。平台计算模块则包含PCIe5.0/4.0控制器、雷电4控制器(没有雷电5)、USB控制器、Wi-Fi与蓝牙控制器、安全引擎等。注意,MeteorLake上的超低功耗E核取消了,因为它改变了模块组合,并且引入了新的“低功耗岛”(LowPowerIsland),不再是单一物理模块管理节能,而是将是所有可节能的模块纳入统一管理,整体按需开关,效率更高。计算模块内部通过HomeAgent、CoherencyAgent等连接主要单元,平台控制器模块内部也有IOCoherency,确保彼此一致性地高效通信。而在两大模块之间,通过可扩展的第二代交叉总线,以及D2D界面进行彼此互连,这相比LunarLake的四大模块更加简单高效。这是Intel第一次在处理器内部封装整合内存,称之为“MemoryonPackage”,也就是“封装级内存”(MOP)。它采用的是LPDDR5X规格,最高频率8500MHz,每颗芯片四个16-bit通道,总容量最高32GB。官方称这种设计可以节省40%的功耗,并节省多达250平方毫米的主板面积,从而可以显著提升电池续航,并留出空间给笔记本的其他设计。但是注意,LunarLake笔记本不再支持独立的SO-DIMM内存,不能扩展和升级。值得一提的是,LunarLake还设计了全新的独立电源管理单元,一共四组,可以提供更多供电电路,动态调节电压。【P性能核与E能效核】这是P核结构简图,代号LionCove,在微架构上进行了全面的彻底改进,大幅提升IPC并增强可扩展性,优化了每瓦性能(尤其是单线程),以及单位面积的性能。它共有多达18个执行端口,吞吐量和效率更高,预测宽度也提升了8倍。缓存系统大大增强,每核心一级数据缓存48KB,一级指令缓存192KB,二级缓存最多达2.5MB(ArrowLake上最多3MB),同时所有核心共享最多12MB三级缓存。频率控制也更加精细,间隔从100MHz大大缩小到16.7MHz,效果自然是能效更高。官方宣称,新性能核的IPC性能比上代有着平均14%的提升,而且功耗越低,提升越明显,超低功耗下可达18%。如果频率也能进一步提升,性能自然会更好,这一点要到后续公布具体型号规格的时候才知道了。E能效核代号Skymont,也是全新设计的,号称Intel最节能的架构。它重点扩展了工作范围、提升了多线程性能,也提高了整体的扩展性,以及加强预测以快速寻找指令、调度端口增至26个、队列加深以更快并行处理、分配和回退加快等等,通过四个128位FP浮点单元和SIMD矢量单元,带来了两倍的矢量性能和AI吞吐量,可以更好地执行VNNI,对于AIPC的整体表现提升有很大裨益。缓存机制与P核截然不同,每个核心有32KB一级数据缓存,所有核心共享最多4MB二级缓存,没有自己的三级缓存。单线程性能可以在1/3的功耗下,平均提升多达68%,最高可接近翻倍。多线程性能方面,四个E核组成一个集群,相比于MeteorLake上的双核集群,只需要1/3的功耗,就能带来2.9倍的性能,单纯比较性能更是最高可以带来惊人的4倍提升。P、E核组合,前者峰值性能提升超过50%,后者能效提升20-80%,可以更灵活地适应对高性能、低功耗等不同应用场景的需求,覆盖各种能效范围。针对混合架构的调度,Intel12代酷睿就引入了硬件线程调度器(ThreadDirector),LunarLake上进行了全新升级,结合操作系统的调度器,带来了动态的调度策略、增强的算法、更精细的控制等。还设置了操作系统隔离区,加强了电源管理,可以将应用能效降低多达35%。P核和E核之间,只要工作负载合适,就会首选分配给单个P核,多线程负载时再扩展到其他能效核,并按需导向性能核。上图就是Office办公下的核心调度实例。此外,Intel也给予了OEM厂商更大的灵活度,可以选择设置性能模式、能效模式。【GPU核显】LunarLake的核显升级为第二代Xe2微架构,也就是和即将发布的Battlemage独立显卡是同宗同源的,只是针对低功耗、高能效进行了优化。Xe2GPU架构引入了8个第二代Xe2核心、全新的XMX引擎(INT8整数操作每秒4096和FP16浮点操作每秒2048)、最多8个更强的光追单元、更大的XeSS内核、Xe2矢量引擎(优化能效和AI性能)、8MB二级缓存、eDP1.5视频输出等等。官方称其性能提升了多达50%,AI算力也高达67TOPS。全新的媒体引擎支持AV1硬件编解码、H.266/VVC视频硬解码。其中VVC,一如之前从H.264到H.265/HEVC,可以在保持同等画质的前提下继续降低码率、文件体积,并支持自适应分辨率码率,更加灵活,还支持屏幕内容编码流(SCC)、360度全景码流。显示引擎支持HDMI2.1、DP2.1、eDP1.5,最多三个屏幕,其中eDP1.5自然是配合笔记本自带屏幕,可以更好地适应屏幕自刷新以进一步节能,使用提前传输进行选择性的显示内容更新。【NPUAI引擎】NPUAI单元别看是第二次独立提出,但是按照Intel的技术演进,号称已经是4.0版本(背刺隔壁第三代),在设计理念上增加大小以适应下一代AI负载,提升频率和能效,并针对现代AI进行优化以高效地运行新的大语言模型和Transformer。NPU4配备了6个神经计算引擎、12个增强的SHAVEDSP、能效优化的MAC阵列,带来了2倍的带宽和48TOPS的算力,峰值性能提升可多达4倍。相比于AMDStrixPoint也就是锐龙AI300系列的第三代NPU,算力略逊了一筹,后者达到了50TOPS。LunarLake处理器的整体算力将达到120TOPS,其中NPU适用于持续性的AI负载,能效非常高,GPU适合高性能的游戏和创作AI应用,CPU算力只有5TOPS,适合轻型、通用型AI负载。AMD尚未公布锐龙AI300系列中CPU、GPU的算力,整体孰强孰弱还有待观察。【平台连接】IO与连接方面,LunarLake提供最多四条PCIe5.0、四条PCIe4.0总线通道,可以连接两块SSD,或者一块SSD和其他扩展。无线升级到了Wi-Fi7(5GGig),最高速率达5.8Gbps,还有蓝牙5.4。当然更少不了Intel独家的雷电4,带宽40Gbps,最多三个连接,而且支持新的雷电共享技术,可以在不同PC之间快捷分享、传输、控制。【产品上市】这就是LunarLake在架构设计上的主要情况了,可以说进步是方方面面的,就看最终的实际性能表现了。Intel已经向厂商和开发者提供一个迷你机形式的开发套件,但没有公布具体情况,而且Intel也不再做NUC迷你机了,殊为可惜。今年第三季度开始,我们将看到超过20家厂商的超过80款LunarLake笔记本陆续上市。AIPC应用也在迅速丰富起立,Intel平台上已有100多家厂商的300多个AI软件功能,优化的大模型也已超过500个。Intel预计到202...PC版:https://www.cnbeta.com.tw/articles/soft/1433619.htm手机版:https://m.cnbeta.com.tw/view/1433619.htm

相关推荐

封面图片

Intel官宣下代超低功耗酷睿Ultra Lunar Lake

Intel官宣下代超低功耗酷睿UltraLunarLakeArrowLake则会在第四季度登场,稍后的台北电脑展2024上会公布更多具体细节。这一次,Intel只是公布了LunarLake的部分整体架构特性,以及在CPU、GPU、AI三大方面的性能提升,尤其是AI。至于更具体的型号命名、规格参数,第三季度再说。在讲述新品之前,首先简单回顾一下MeteorLake,也就是第一代酷睿Ultra。它既是Intel微处理器历史上最大规模的变革,也是未来LunarLake、ArrowLake等一众新处理器的发展基石,起着承前启后的关键作用。MeteorLake最大的意义就是开启了AIPC的新时代,这将是PC行业未来多年的主旋律,而眼下尽管刚刚处于起步阶段,但已经展现出了势不可挡的架势。目前,MeteorLakeAIPC已经赢得了100多家ISV独立软件供应商的支持,AI加速功能已经超过300项,AI大模型加速优化已经超过500项,遍布各行各业。Intel预计,到2025年底,Intel平台的AIPC全球出货量将超过1亿台,涵盖超过230款产品设计、250多家零售商、48个国家和地区。目前,Intel仍在大力推荐AIPC的应用场景落地,包括安全防护、端侧大语言模型优化、本地个人助手等方面,都取得了飞快的进展。LunarLake定位于低功耗领域,主打超轻薄笔记本,继续带来全方位的变革,完美继承MeteorLake的地位。制造工艺将继续升级,并结合分立式模块化架构、Intel3D封装技术,整合两颗内存芯片(容量预计16/32GB)。CPU部分继续异构混合架构,P核、E核架构都会再次升级,代号分别为LionCove、Skymont,带来显著提升的IPC与能效提升。同时继续集成基于超低功耗E核构建的集成低功耗岛(LowPowerIsland),可在观看视频、文字办公等场景中关闭不必要的计算模块,大大节省功耗、延长续航。GPU部分升级到第二代的Xe2锐炫架构,这可是独立显卡都还没有用上的,重点升级XMXAI引擎,算力超过60TOPS。NPU部分算力将超过45TOPS,是当前的三倍有余,并支持混合精度、更多数据类型。加上CPU、GPU,新平台的总算力将首次超过100TOPS,也就是每秒可执行100多万亿次计算。这样一来,它就可以更轻松地执行更多参数的模型、更高负载的应用,尤其是NPU也不再局限于一些低功耗持续负载,玩法可以更多。按照官方给出的数字,LunarLakeCPU性能可超过AMD锐龙78840U、骁龙XElite,GPU性能比上代提升约1.5倍,AI性能相比于骁龙XElite可以领先大约1.4倍。当然,AMD会几乎同步发布代号StrixPoint的下一代低功耗移动处理器,升级到Zen5CPU、RDNA3+GPU、XDNA2NPU,可谓针锋相对。至于骁龙XElite,各品牌的笔记本正在陆续公开,虽有生态制约但来势汹汹,一场“三国演义”即将开战。还有超低功耗,这也将是LunarLake的拿手好戏,官方宣称在视频会议场景中,相比锐龙77840U可节省最多30%的功耗,而相比骁龙8cxGen3可以低最多20%。奇怪的是,这里并未和性能角度一样对比竞品新一代的锐龙78840U、骁龙XElite,不知为何。总之,LunarLake将会在现有MeteorLake的基础上,从制造封装工艺到CPU/GPU/NPU架构,从性能到功耗,都带来一次新的飞跃,AIPC也将借此迈上新的台阶。Intel自信满满地表示,得益于MeteorLake的成功,再加上LunarLake的到来,今年将交付超过4000万颗AIPC处理器。再加上AMDStrixPoint即将同步到来、高通骁龙XElite正式入局,好戏正在徐徐拉开大幕。...PC版:https://www.cnbeta.com.tw/articles/soft/1431737.htm手机版:https://m.cnbeta.com.tw/view/1431737.htm

封面图片

Intel 发布 Lunar Lake 处理器,带来1.5倍 GPU、3倍 NPU 性能提升

Intel发布LunarLake处理器,带来1.5倍GPU、3倍NPU性能提升LunarLake架构解析:媲美旧P核性能的Skymount、没有超线程的LionCove·P核、E核、GPU架构全换,没有超线程·CPU、GPU、NPU放在同一个Tile(即Chiplet)上,Tile数量减少·取消上一代放在SoCTile里的LPE核·全部交由台积电代工,TSMCN3E+N6

封面图片

英特尔发布全新Lunar Lake处理器

英特尔发布全新LunarLake处理器该处理器和苹果M系芯片内存封装相似,无法后期更换,支持最高32GB 总内存容量的LPDDR5X。LunarLake 的整体采用Tile模块化设计,2颗Tile为台积电N3B工艺。拥有完整的CPU、GPU、媒体引擎、显示引擎、图像引擎和NPU。其余还有负责SoC 对外连接的平台控制模块,三大模块使用Foveros 技术,以3D 的形式封装在基础模块上,共同构成了LunarLake 整个SoC。 CPU采用P+E混合架构,P核心使用LionCove微架构,E核心使用Skymont微架构,搭载Xe2代核显,整体功耗和图形性能显著提升。LionCove针对单线程优化,提升能效和面积效率。Skymont微架构提高内核并行处理能力,优化功耗。关注频道@ZaiHuaPd频道爆料@ZaiHuabot

封面图片

英特尔解释Lunar Lake如何在放弃超线程的情况下获得最佳性能

英特尔解释LunarLake如何在放弃超线程的情况下获得最佳性能如果你还记得,英特尔在第12代AlderLake处理器上推出了性能混合或"大-大"架构,将"大"性能内核或P核心与"大"效率内核或E核心相结合,这样,较重的任务将由P核心处理,而较轻的工作负载将由E核心处理。不过,尽管引入了线程指令硬件调度程序监,英特尔还是注意到了改进的机会,因为操作系统调度程序通常会将任务最后发送给超线程,因为物理内核总是优先处理。英特尔称,在LunarLake移动CPU上,其全新优化的P核心(不含HT)在单线程性能和效率方面有了显著提升。英特尔表示,超线程技术更适用于多线程性能更为重要的应用场景。下面的幻灯片详细介绍了英特尔通过禁用HT在LunarLakeP核心上观察到的性能和能效改进:英特尔补充说,这是其精简LunarLake架构的更广泛努力的一部分,即砍掉对所需性能或能效无益的部分。英特尔在下面的幻灯片中解释了这些架构的目标。如果你想知道,LionCove是LunarLakeP核架构,而Skymont是E核架构。LunarLake的另一个变化是引入了新的L0D级缓存(0级数据缓存)。LunarLakeP核(LionCove)每个内核有2.5MB的二级缓存和多达12MB的共享三级缓存。同时,E核(Skymont)拥有4MB共享二级缓存。它们由四个P核和四个E核组成集群,这种8核混合设计构成了一个LunarLake计算磁盘。它还拥有高达32GB的内置内存,有助于加快数据访问速度并减少延迟。英特尔还对英特尔线程指令(ITD)进行了修改。与前几代产品不同的是,现在只要工作负载可以由E核处理,ITD就会将任务优先安排给E核。据该公司称,采用这种方法后,MicrosoftTeams的功耗降低了35%。微软Windows核心操作系统高级软件工程师TapanAnsel和Windows核心操作系统首席软件工程主管(能效)BretBarkelew说:英特尔线程指导技术可识别LunarLake平台上最节能的CPU,Windows操作系统可利用该技术创建一个"控制区",将工作限制在这些CPU上,并保持其他性能优越的CPU处于停机/闲置状态,仅在需要时使用。这为团队视频会议场景节省了大量功耗,而这些场景都非常适合在LunarLake上的"控制区"内运行。与流星湖P核(RedwoodCove)相比,LunarLakeP核(LionCove)的IPC提高了14%(AMD声称其新Zen5的IPC提高了16%):在E核方面,英特尔称LunarLake的Skymont甚至比RaptorLake(第13代)上的P核还要快;与MeteorLake的LPE核相比,Skymont快68%,浮点(FP)吞吐量比整数吞吐量有更大的提升。最后是NPU或神经处理单元。英特尔公司声称,其新的NPU4设计有了巨大的改进。我们已经知道,英特尔公司在早些时候发布的一项声明中已经成功地达到了Copilot+PC所需的40TOPS。如上图所示,48峰值TOPS(pTOPS)比必要的40TOPS高出20%,略低于AMD昨天发布的新RyzenAI300系列的50TOPS。不过,英特尔宣称平台总性能(CPU+GPU+NPU)为120TOPS。而AMD的"处理器总性能"为80TOPS。英特尔表示,由于LunarLake的人工智能处理能力比MeteorLake有了大幅提升,因此StableDiffusion在前者上的能效也得到了大幅提高。...PC版:https://www.cnbeta.com.tw/articles/soft/1433521.htm手机版:https://m.cnbeta.com.tw/view/1433521.htm

封面图片

Intel 288个小核心下代至强首次公开 性能飙升2.7倍

Intel288个小核心下代至强首次公开性能飙升2.7倍按照Intel官方给出的数据,使用2021年发布的第二代至强(CascadeLake),11个机架内可容纳528颗24核心处理器,加上超线程,逻辑核心共1056个,总功耗为8千瓦。同等功耗下,SierraForest只需要7个机架空间,就可以容纳2016颗144核心型号,密度提升1.9倍,能效提升2.4倍,性能提升2.7倍!5G核心网场景中,SierraForest在用户层的能效可提升1.4倍,在控制层也可提升90%。SierraForest将在今年内正式发布,而在它之前,也就是今年上半年,首先登场的是GraniteRapids,同样基于Intel3工艺,但仍然是传统P核大核心。2025年,Intel还会推出面向网络和通信基础设施的GraniteRapids-D。...PC版:https://www.cnbeta.com.tw/articles/soft/1422017.htm手机版:https://m.cnbeta.com.tw/view/1422017.htm

封面图片

Intel预告未来三大至强:144个纯小核 功耗只需200W

Intel预告未来三大至强:144个纯小核功耗只需200W它在工艺、架构、接口等各方面都保持不变,相当于一个升级增强版,比如频率更高之类的,但细节暂未公开,预计最多增加到64个核心。EmeraldRapids目前已经向客户送样,将在第四季度按期发布上市。EmeraldRapids晶圆EmeraldRapids样品明年才是重头戏,并且首次分两步走,一个是上半年的纯小核SierraForest,一个是稍后跟进的纯大核GraniteRapids。之所以会分两条腿走路,Intel表示,原因主要是市场和客户需求的变化。一方面,HPC高性能计算、AI人工智能都属于计算敏感型应用,依然需要强大的单核、多核性能。另一方面,更高的核心密度、更高的能效的需求越来越高,传统的高性能核心难以满足,而且容易造成浪费。事实上,AMD这一代霄龙处理器,就是走的这种路线,既有高性能的Zen4架构(最多96核心),也有高密度高能效的Zen4c架构(最多128核心)。SierraForest、GraniteRapids新至强都采用了模块化SoC设计,一是包含处理器核心、内存的计算模块,二是负责输入输出的IO模块,彼此分离,再结合EMiB封装、网格互连接口(meshfabricinterface),可以灵活组合、扩展。基本单元是核心模块(CoreTile),包括核心、二级缓存、三级缓存、网格互连接口等部分。值得一提的是,E核、P核之间共享IP、固件、操作系统、软件堆栈,开发利用更为简洁高效。新至强支持最多12通道的DDR5内存,包括新的MCRDIMM规格,通过多路合并获得更高带宽,还有新的IntelFlatMemory技术,可在DDR5、CXL之间实现硬件管理数据转移,使得内存总容量对软件可见。同时支持最多136条PCIe5.0/CXL2.0通道,最多6条UPI总线。E核是全新设计的架构,前端、乱序引擎、标量引擎、矢量引擎、内存子系统等规格模块都针对能效进行特别优化,同时与P核共享硬件平台、软件堆栈,还会用上先进的Intel3制造工艺。每个E核具备64KB一级指令缓存,每2个或4个E核组成一个模块(Tile),共享最多4MB二级缓存,共享频率和电压域,共享网格互连接口,然后所有E核共享三级缓存,平均每4个分配到3MB。软件功能支持BF16、FP16数据格式与转换,支持AVXAI加速等各种现代指令集,以及RAS可靠性、安全特性、虚拟化。SierraForest最多144核心,支持单路、双路,也就是单系统最多288核心288线程,功耗则低至200W。对比现有四代至强,它的核心密度增加最多2.5倍,能效则提升最多2.4倍。P核则是基于成熟架构,针对单核性能优化并提升能效,具备单独的电源管理控制器,重点改进分支预测、未命中恢复,同样是Intel3制造工艺。每个P核具备64KB16路一级指令缓存,支持增强型AMX指令、新的FP16浮点指令,号称混合AI负载性能提升2-3倍。GraniteRapids则支持单路、双路、四路、八路,但核心数量暂未公开。未来,P核、E核至强将分别继续演化,其中E核的下一代代号ClearwaterForest,有望用上Intel18A工艺,预计最早2025年面世。...PC版:https://www.cnbeta.com.tw/articles/soft/1380339.htm手机版:https://m.cnbeta.com.tw/view/1380339.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人