Intel Lunar Lake架构全公开：功耗大降40％、E核性能飙升4倍

IntelLunarLake架构全公开：功耗大降40％、E核性能飙升4倍现在，Intel完全公开了LunarLake的架构设计细节，涵盖模块化结构、封装工艺、P性能核、E能效核、混合架构与线程调度、GPU核显、NPUAI引擎、平台连接等部分。我们逐一来看。【模块化与封装】首先说一句，Intel尚未明确公布LunarLake的制造工艺，目前第三方说法是主要采用台积电N3B，也就是台积电第二代3nm。不过Intel强调，如今的处理器设计理念是架构、工艺彼此99％的解耦分离，不再互相依赖，可以各自独立推进路线图。LunarLake延续了MeteorLake的分离式模块化设计，但又截然不同，首先是简化为计算模块(ComputeTile)、平台控制器模块(PlatformControllerTile)两大部分，角落里还有个填料模块(FillerTile)，不具备实际电路和功能，只是将整体凑成一个方形以保证结构强度。它们通过底部的基础模块，结合Foveros封装工艺，组合在一起。其次，LunarLake还整合封装了两颗内存。计算模块内包含最多四个P核、最多四个E核、GPU核显、媒体引擎、显示引擎、IPU图像处理单元、NPUAI单元、NOC、MSC(内存侧缓存)等。其中，MSC缓存最大容量8MB，独立于二三级缓存，主要用于IO引擎的缓存配合，可以减少对系统内存的依赖，提升延迟与带宽。平台计算模块则包含PCIe5.0/4.0控制器、雷电4控制器(没有雷电5)、USB控制器、Wi-Fi与蓝牙控制器、安全引擎等。注意，MeteorLake上的超低功耗E核取消了，因为它改变了模块组合，并且引入了新的“低功耗岛”(LowPowerIsland)，不再是单一物理模块管理节能，而是将是所有可节能的模块纳入统一管理，整体按需开关，效率更高。计算模块内部通过HomeAgent、CoherencyAgent等连接主要单元，平台控制器模块内部也有IOCoherency，确保彼此一致性地高效通信。而在两大模块之间，通过可扩展的第二代交叉总线，以及D2D界面进行彼此互连，这相比LunarLake的四大模块更加简单高效。这是Intel第一次在处理器内部封装整合内存，称之为“MemoryonPackage”，也就是“封装级内存”(MOP)。它采用的是LPDDR5X规格，最高频率8500MHz，每颗芯片四个16-bit通道，总容量最高32GB。官方称这种设计可以节省40％的功耗，并节省多达250平方毫米的主板面积，从而可以显著提升电池续航，并留出空间给笔记本的其他设计。但是注意，LunarLake笔记本不再支持独立的SO-DIMM内存，不能扩展和升级。值得一提的是，LunarLake还设计了全新的独立电源管理单元，一共四组，可以提供更多供电电路，动态调节电压。【P性能核与E能效核】这是P核结构简图，代号LionCove，在微架构上进行了全面的彻底改进，大幅提升IPC并增强可扩展性，优化了每瓦性能(尤其是单线程)，以及单位面积的性能。它共有多达18个执行端口，吞吐量和效率更高，预测宽度也提升了8倍。缓存系统大大增强，每核心一级数据缓存48KB，一级指令缓存192KB，二级缓存最多达2.5MB(ArrowLake上最多3MB)，同时所有核心共享最多12MB三级缓存。频率控制也更加精细，间隔从100MHz大大缩小到16.7MHz，效果自然是能效更高。官方宣称，新性能核的IPC性能比上代有着平均14％的提升，而且功耗越低，提升越明显，超低功耗下可达18％。如果频率也能进一步提升，性能自然会更好，这一点要到后续公布具体型号规格的时候才知道了。E能效核代号Skymont，也是全新设计的，号称Intel最节能的架构。它重点扩展了工作范围、提升了多线程性能，也提高了整体的扩展性，以及加强预测以快速寻找指令、调度端口增至26个、队列加深以更快并行处理、分配和回退加快等等，通过四个128位FP浮点单元和SIMD矢量单元，带来了两倍的矢量性能和AI吞吐量，可以更好地执行VNNI，对于AIPC的整体表现提升有很大裨益。缓存机制与P核截然不同，每个核心有32KB一级数据缓存，所有核心共享最多4MB二级缓存，没有自己的三级缓存。单线程性能可以在1/3的功耗下，平均提升多达68％，最高可接近翻倍。多线程性能方面，四个E核组成一个集群，相比于MeteorLake上的双核集群，只需要1/3的功耗，就能带来2.9倍的性能，单纯比较性能更是最高可以带来惊人的4倍提升。P、E核组合，前者峰值性能提升超过50％，后者能效提升20-80％，可以更灵活地适应对高性能、低功耗等不同应用场景的需求，覆盖各种能效范围。针对混合架构的调度，Intel12代酷睿就引入了硬件线程调度器(ThreadDirector)，LunarLake上进行了全新升级，结合操作系统的调度器，带来了动态的调度策略、增强的算法、更精细的控制等。还设置了操作系统隔离区，加强了电源管理，可以将应用能效降低多达35％。P核和E核之间，只要工作负载合适，就会首选分配给单个P核，多线程负载时再扩展到其他能效核，并按需导向性能核。上图就是Office办公下的核心调度实例。此外，Intel也给予了OEM厂商更大的灵活度，可以选择设置性能模式、能效模式。【GPU核显】LunarLake的核显升级为第二代Xe2微架构，也就是和即将发布的Battlemage独立显卡是同宗同源的，只是针对低功耗、高能效进行了优化。Xe2GPU架构引入了8个第二代Xe2核心、全新的XMX引擎(INT8整数操作每秒4096和FP16浮点操作每秒2048)、最多8个更强的光追单元、更大的XeSS内核、Xe2矢量引擎(优化能效和AI性能)、8MB二级缓存、eDP1.5视频输出等等。官方称其性能提升了多达50％，AI算力也高达67TOPS。全新的媒体引擎支持AV1硬件编解码、H.266/VVC视频硬解码。其中VVC，一如之前从H.264到H.265/HEVC，可以在保持同等画质的前提下继续降低码率、文件体积，并支持自适应分辨率码率，更加灵活，还支持屏幕内容编码流(SCC)、360度全景码流。显示引擎支持HDMI2.1、DP2.1、eDP1.5，最多三个屏幕，其中eDP1.5自然是配合笔记本自带屏幕，可以更好地适应屏幕自刷新以进一步节能，使用提前传输进行选择性的显示内容更新。【NPUAI引擎】NPUAI单元别看是第二次独立提出，但是按照Intel的技术演进，号称已经是4.0版本(背刺隔壁第三代)，在设计理念上增加大小以适应下一代AI负载，提升频率和能效，并针对现代AI进行优化以高效地运行新的大语言模型和Transformer。NPU4配备了6个神经计算引擎、12个增强的SHAVEDSP、能效优化的MAC阵列，带来了2倍的带宽和48TOPS的算力，峰值性能提升可多达4倍。相比于AMDStrixPoint也就是锐龙AI300系列的第三代NPU，算力略逊了一筹，后者达到了50TOPS。LunarLake处理器的整体算力将达到120TOPS，其中NPU适用于持续性的AI负载，能效非常高，GPU适合高性能的游戏和创作AI应用，CPU算力只有5TOPS，适合轻型、通用型AI负载。AMD尚未公布锐龙AI300系列中CPU、GPU的算力，整体孰强孰弱还有待观察。【平台连接】IO与连接方面，LunarLake提供最多四条PCIe5.0、四条PCIe4.0总线通道，可以连接两块SSD，或者一块SSD和其他扩展。无线升级到了Wi-Fi7(5GGig)，最高速率达5.8Gbps，还有蓝牙5.4。当然更少不了Intel独家的雷电4，带宽40Gbps，最多三个连接，而且支持新的雷电共享技术，可以在不同PC之间快捷分享、传输、控制。【产品上市】这就是LunarLake在架构设计上的主要情况了，可以说进步是方方面面的，就看最终的实际性能表现了。Intel已经向厂商和开发者提供一个迷你机形式的开发套件，但没有公布具体情况，而且Intel也不再做NUC迷你机了，殊为可惜。今年第三季度开始，我们将看到超过20家厂商的超过80款LunarLake笔记本陆续上市。AIPC应用也在迅速丰富起立，Intel平台上已有100多家厂商的300多个AI软件功能，优化的大模型也已超过500个。Intel预计到202...PC版：https://www.cnbeta.com.tw/articles/soft/1433619.htm手机版：https://m.cnbeta.com.tw/view/1433619.htm

在Telegram中查看

相关推荐

Intel官宣下代超低功耗酷睿Ultra Lunar Lake

Intel官宣下代超低功耗酷睿UltraLunarLakeArrowLake则会在第四季度登场，稍后的台北电脑展2024上会公布更多具体细节。这一次，Intel只是公布了LunarLake的部分整体架构特性，以及在CPU、GPU、AI三大方面的性能提升，尤其是AI。至于更具体的型号命名、规格参数，第三季度再说。在讲述新品之前，首先简单回顾一下MeteorLake，也就是第一代酷睿Ultra。它既是Intel微处理器历史上最大规模的变革，也是未来LunarLake、ArrowLake等一众新处理器的发展基石，起着承前启后的关键作用。MeteorLake最大的意义就是开启了AIPC的新时代，这将是PC行业未来多年的主旋律，而眼下尽管刚刚处于起步阶段，但已经展现出了势不可挡的架势。目前，MeteorLakeAIPC已经赢得了100多家ISV独立软件供应商的支持，AI加速功能已经超过300项，AI大模型加速优化已经超过500项，遍布各行各业。Intel预计，到2025年底，Intel平台的AIPC全球出货量将超过1亿台，涵盖超过230款产品设计、250多家零售商、48个国家和地区。目前，Intel仍在大力推荐AIPC的应用场景落地，包括安全防护、端侧大语言模型优化、本地个人助手等方面，都取得了飞快的进展。LunarLake定位于低功耗领域，主打超轻薄笔记本，继续带来全方位的变革，完美继承MeteorLake的地位。制造工艺将继续升级，并结合分立式模块化架构、Intel3D封装技术，整合两颗内存芯片(容量预计16/32GB)。CPU部分继续异构混合架构，P核、E核架构都会再次升级，代号分别为LionCove、Skymont，带来显著提升的IPC与能效提升。同时继续集成基于超低功耗E核构建的集成低功耗岛(LowPowerIsland)，可在观看视频、文字办公等场景中关闭不必要的计算模块，大大节省功耗、延长续航。GPU部分升级到第二代的Xe2锐炫架构，这可是独立显卡都还没有用上的，重点升级XMXAI引擎，算力超过60TOPS。NPU部分算力将超过45TOPS，是当前的三倍有余，并支持混合精度、更多数据类型。加上CPU、GPU，新平台的总算力将首次超过100TOPS，也就是每秒可执行100多万亿次计算。这样一来，它就可以更轻松地执行更多参数的模型、更高负载的应用，尤其是NPU也不再局限于一些低功耗持续负载，玩法可以更多。按照官方给出的数字，LunarLakeCPU性能可超过AMD锐龙78840U、骁龙XElite，GPU性能比上代提升约1.5倍，AI性能相比于骁龙XElite可以领先大约1.4倍。当然，AMD会几乎同步发布代号StrixPoint的下一代低功耗移动处理器，升级到Zen5CPU、RDNA3+GPU、XDNA2NPU，可谓针锋相对。至于骁龙XElite，各品牌的笔记本正在陆续公开，虽有生态制约但来势汹汹，一场“三国演义”即将开战。还有超低功耗，这也将是LunarLake的拿手好戏，官方宣称在视频会议场景中，相比锐龙77840U可节省最多30％的功耗，而相比骁龙8cxGen3可以低最多20％。奇怪的是，这里并未和性能角度一样对比竞品新一代的锐龙78840U、骁龙XElite，不知为何。总之，LunarLake将会在现有MeteorLake的基础上，从制造封装工艺到CPU/GPU/NPU架构，从性能到功耗，都带来一次新的飞跃，AIPC也将借此迈上新的台阶。Intel自信满满地表示，得益于MeteorLake的成功，再加上LunarLake的到来，今年将交付超过4000万颗AIPC处理器。再加上AMDStrixPoint即将同步到来、高通骁龙XElite正式入局，好戏正在徐徐拉开大幕。...PC版：https://www.cnbeta.com.tw/articles/soft/1431737.htm手机版：https://m.cnbeta.com.tw/view/1431737.htm

Intel 发布 Lunar Lake 处理器，带来1.5倍 GPU、3倍 NPU 性能提升

Intel发布LunarLake处理器，带来1.5倍GPU、3倍NPU性能提升LunarLake架构解析：媲美旧P核性能的Skymount、没有超线程的LionCove·P核、E核、GPU架构全换，没有超线程·CPU、GPU、NPU放在同一个Tile（即Chiplet）上，Tile数量减少·取消上一代放在SoCTile里的LPE核·全部交由台积电代工，TSMCN3E+N6

英特尔发布全新Lunar Lake处理器

英特尔发布全新LunarLake处理器该处理器和苹果M系芯片内存封装相似，无法后期更换，支持最高32GB 总内存容量的LPDDR5X。LunarLake 的整体采用Tile模块化设计，2颗Tile为台积电N3B工艺。拥有完整的CPU、GPU、媒体引擎、显示引擎、图像引擎和NPU。其余还有负责SoC 对外连接的平台控制模块，三大模块使用Foveros 技术，以3D 的形式封装在基础模块上，共同构成了LunarLake 整个SoC。 CPU采用P+E混合架构，P核心使用LionCove微架构，E核心使用Skymont微架构，搭载Xe2代核显，整体功耗和图形性能显著提升。LionCove针对单线程优化，提升能效和面积效率。Skymont微架构提高内核并行处理能力，优化功耗。关注频道@ZaiHuaPd频道爆料@ZaiHuabot

英特尔解释Lunar Lake如何在放弃超线程的情况下获得最佳性能

英特尔解释LunarLake如何在放弃超线程的情况下获得最佳性能如果你还记得，英特尔在第12代AlderLake处理器上推出了性能混合或"大-大"架构，将"大"性能内核或P核心与"大"效率内核或E核心相结合，这样，较重的任务将由P核心处理，而较轻的工作负载将由E核心处理。不过，尽管引入了线程指令硬件调度程序监，英特尔还是注意到了改进的机会，因为操作系统调度程序通常会将任务最后发送给超线程，因为物理内核总是优先处理。英特尔称，在LunarLake移动CPU上，其全新优化的P核心（不含HT）在单线程性能和效率方面有了显著提升。英特尔表示，超线程技术更适用于多线程性能更为重要的应用场景。下面的幻灯片详细介绍了英特尔通过禁用HT在LunarLakeP核心上观察到的性能和能效改进：英特尔补充说，这是其精简LunarLake架构的更广泛努力的一部分，即砍掉对所需性能或能效无益的部分。英特尔在下面的幻灯片中解释了这些架构的目标。如果你想知道，LionCove是LunarLakeP核架构，而Skymont是E核架构。LunarLake的另一个变化是引入了新的L0D级缓存（0级数据缓存）。LunarLakeP核（LionCove）每个内核有2.5MB的二级缓存和多达12MB的共享三级缓存。同时，E核（Skymont）拥有4MB共享二级缓存。它们由四个P核和四个E核组成集群，这种8核混合设计构成了一个LunarLake计算磁盘。它还拥有高达32GB的内置内存，有助于加快数据访问速度并减少延迟。英特尔还对英特尔线程指令（ITD）进行了修改。与前几代产品不同的是，现在只要工作负载可以由E核处理，ITD就会将任务优先安排给E核。据该公司称，采用这种方法后，MicrosoftTeams的功耗降低了35%。微软Windows核心操作系统高级软件工程师TapanAnsel和Windows核心操作系统首席软件工程主管（能效）BretBarkelew说：英特尔线程指导技术可识别LunarLake平台上最节能的CPU，Windows操作系统可利用该技术创建一个"控制区"，将工作限制在这些CPU上，并保持其他性能优越的CPU处于停机/闲置状态，仅在需要时使用。这为团队视频会议场景节省了大量功耗，而这些场景都非常适合在LunarLake上的"控制区"内运行。与流星湖P核（RedwoodCove）相比，LunarLakeP核（LionCove）的IPC提高了14%（AMD声称其新Zen5的IPC提高了16%）：在E核方面，英特尔称LunarLake的Skymont甚至比RaptorLake（第13代）上的P核还要快；与MeteorLake的LPE核相比，Skymont快68%，浮点（FP）吞吐量比整数吞吐量有更大的提升。最后是NPU或神经处理单元。英特尔公司声称，其新的NPU4设计有了巨大的改进。我们已经知道，英特尔公司在早些时候发布的一项声明中已经成功地达到了Copilot+PC所需的40TOPS。如上图所示，48峰值TOPS（pTOPS）比必要的40TOPS高出20%，略低于AMD昨天发布的新RyzenAI300系列的50TOPS。不过，英特尔宣称平台总性能（CPU+GPU+NPU）为120TOPS。而AMD的"处理器总性能"为80TOPS。英特尔表示，由于LunarLake的人工智能处理能力比MeteorLake有了大幅提升，因此StableDiffusion在前者上的能效也得到了大幅提高。...PC版：https://www.cnbeta.com.tw/articles/soft/1433521.htm手机版：https://m.cnbeta.com.tw/view/1433521.htm

Intel 288个小核心下代至强首次公开性能飙升2.7倍

Intel288个小核心下代至强首次公开性能飙升2.7倍按照Intel官方给出的数据，使用2021年发布的第二代至强(CascadeLake)，11个机架内可容纳528颗24核心处理器，加上超线程，逻辑核心共1056个，总功耗为8千瓦。同等功耗下，SierraForest只需要7个机架空间，就可以容纳2016颗144核心型号，密度提升1.9倍，能效提升2.4倍，性能提升2.7倍！5G核心网场景中，SierraForest在用户层的能效可提升1.4倍，在控制层也可提升90％。SierraForest将在今年内正式发布，而在它之前，也就是今年上半年，首先登场的是GraniteRapids，同样基于Intel3工艺，但仍然是传统P核大核心。2025年，Intel还会推出面向网络和通信基础设施的GraniteRapids-D。...PC版：https://www.cnbeta.com.tw/articles/soft/1422017.htm手机版：https://m.cnbeta.com.tw/view/1422017.htm

Intel预告未来三大至强：144个纯小核功耗只需200W

Intel预告未来三大至强：144个纯小核功耗只需200W它在工艺、架构、接口等各方面都保持不变，相当于一个升级增强版，比如频率更高之类的，但细节暂未公开，预计最多增加到64个核心。EmeraldRapids目前已经向客户送样，将在第四季度按期发布上市。EmeraldRapids晶圆EmeraldRapids样品明年才是重头戏，并且首次分两步走，一个是上半年的纯小核SierraForest，一个是稍后跟进的纯大核GraniteRapids。之所以会分两条腿走路，Intel表示，原因主要是市场和客户需求的变化。一方面，HPC高性能计算、AI人工智能都属于计算敏感型应用，依然需要强大的单核、多核性能。另一方面，更高的核心密度、更高的能效的需求越来越高，传统的高性能核心难以满足，而且容易造成浪费。事实上，AMD这一代霄龙处理器，就是走的这种路线，既有高性能的Zen4架构(最多96核心)，也有高密度高能效的Zen4c架构(最多128核心)。SierraForest、GraniteRapids新至强都采用了模块化SoC设计，一是包含处理器核心、内存的计算模块，二是负责输入输出的IO模块，彼此分离，再结合EMiB封装、网格互连接口(meshfabricinterface)，可以灵活组合、扩展。基本单元是核心模块(CoreTile)，包括核心、二级缓存、三级缓存、网格互连接口等部分。值得一提的是，E核、P核之间共享IP、固件、操作系统、软件堆栈，开发利用更为简洁高效。新至强支持最多12通道的DDR5内存，包括新的MCRDIMM规格，通过多路合并获得更高带宽，还有新的IntelFlatMemory技术，可在DDR5、CXL之间实现硬件管理数据转移，使得内存总容量对软件可见。同时支持最多136条PCIe5.0/CXL2.0通道，最多6条UPI总线。E核是全新设计的架构，前端、乱序引擎、标量引擎、矢量引擎、内存子系统等规格模块都针对能效进行特别优化，同时与P核共享硬件平台、软件堆栈，还会用上先进的Intel3制造工艺。每个E核具备64KB一级指令缓存，每2个或4个E核组成一个模块(Tile)，共享最多4MB二级缓存，共享频率和电压域，共享网格互连接口，然后所有E核共享三级缓存，平均每4个分配到3MB。软件功能支持BF16、FP16数据格式与转换，支持AVXAI加速等各种现代指令集，以及RAS可靠性、安全特性、虚拟化。SierraForest最多144核心，支持单路、双路，也就是单系统最多288核心288线程，功耗则低至200W。对比现有四代至强，它的核心密度增加最多2.5倍，能效则提升最多2.4倍。P核则是基于成熟架构，针对单核性能优化并提升能效，具备单独的电源管理控制器，重点改进分支预测、未命中恢复，同样是Intel3制造工艺。每个P核具备64KB16路一级指令缓存，支持增强型AMX指令、新的FP16浮点指令，号称混合AI负载性能提升2-3倍。GraniteRapids则支持单路、双路、四路、八路，但核心数量暂未公开。未来，P核、E核至强将分别继续演化，其中E核的下一代代号ClearwaterForest，有望用上Intel18A工艺，预计最早2025年面世。...PC版：https://www.cnbeta.com.tw/articles/soft/1380339.htm手机版：https://m.cnbeta.com.tw/view/1380339.htm

🔍 发送关键词来寻找群组、频道或视频。

启动SOSO机器人