摘要:上周英特尔公布了代号为Panther Lake的新一代客户端处理器的架构细节,它将会是未来的酷睿Ultra 300系列移动处理器,计划是在明年初正式推出。它与服务器端的Clearwater Forest一样使用Intel 18A制程工艺打造,新产品将为广泛的消
上周英特尔公布了代号为Panther Lake的新一代客户端处理器的架构细节,它将会是未来的酷睿Ultra 300系列移动处理器,计划是在明年初正式推出。它与服务器端的Clearwater Forest一样使用Intel 18A制程工艺打造,新产品将为广泛的消费级与商用AI PC、游戏设备以及边缘计算解决方案提供算力支持,预计今年晚些时候开始出货,2026年1月实现广泛的市场供应。
现在的酷睿Ultra 200系列移动处理器产品组合是相当复杂的,首先它包含Lunar Lake与Arrow Lake两种不同的处理器,就产品架构而言,Lunar Lake其实比Arrow Lake更先进,它拥有最新的Xe2 Battlemage架构GPU和算力达到48 TOPS的第四代NPU。但它的核心规模并不大,因为Lunar Lake是追求高电池续航而设计的,只有4P+4LP E核,扩展能力也有限,再加上内存是直接焊在CPU上的所以并不怎么受厂家欢迎。
而Arrow Lake则更细分为HX、H和U三个系列,它的核心规模比Lunar Lake大得多,然而它身上也有不少妥协的地方,因为它本身就是从Meteor Lake基础上发展而来的,所以也直接沿用了Meteor Lake的部分模块。它的SoC模块就是Meteor Lake上的,所以你能Arrow Lake-H在上面看到Skymont架构的E核与Crestmont架构的LP-E核这种神奇组合,由于NPU也在SoC模块上,所以Arrow Lake只有算力13 TOPS的第三代NPU。GPU方面,Arrow Lake-HX直接沿用Meteor Lake的Xe-LPG核显,而Arrow Lake-H上的则是增加了XMX单元的Xe-LPG+,其实都属于第一代Arc Alchemist架构的产品。至于Arrow Lake-U更直接是升级Intel 3工艺的Meteor Lake-U,和酷睿Ultra 200差非常远。
现在Panther Lake要把Lunar Lake级别的能效与Arrow Lake级别的性能与扩展性整合在一起,打造在各方面都具备竞争力的产品,它拥有全新的Cougar Cove架构P核,Darkmont架构E核,Xe3 GPU与第五代NPU,Panther Lake基于最新的Intel 18A制程工艺打造,并使用Foveros-S封装技术把不同工艺的模块封装在一起。下面我们就来深入研究一下Panther Lake。
Intel 18A工艺与Foveros-S封装技术Intel 18A是其开发和制造的首个2纳米级别制程节点。与Intel 3制程工艺相比,Intel 18A的每瓦性能提升高达15%,芯片密度提升约30%。该技术通过RibbonFET晶体管和PowerVia背面供电技术显著提升性能与能效。Intel 18A已经在两座工厂开始生产,英特尔在美国亚利桑那州的Fab-52晶圆厂已经正式在这个月全面投入运营,预计在2025年第四季度Intel 18A工艺能够达成大规模量产的良率目标,从而全面进入高产能的生产阶段。
RibbonFET即GAA全环绕栅极晶体管,它的栅极环绕晶体管沟道,从而能够严格控制沟道中的电流,可以降低漏电流,并提高晶体管开关时的效率,这也有助于降低工作电压。此外,RibbonFET的栅极长度比FinFET短5~10%,并且每个晶体管的功耗降低了20%。
PowerVia背面供电将电源线路移至晶体管背面,传统的晶圆设计是信号线路和电源线路混合放在晶体管上面,这样会带来明显的线路拥塞和功耗损失问题。PowerVia把电源线路移动到晶体管背面,把信号线路和供电线路分离了,这首先消除了信号干扰,有更好的信号完整性。并缩短了晶体管与电源之间的距离,降低了电阻,有效减少了从封装到晶体管之间的压降,最多可达30%。线路的优化提升了标准单元利用率最多可达10%,从而提升了晶体管密度。
Panther Lake采用2.5D Foveros-S先进封装技术,它在2019年就进入了规模生产,到现在已经是一个很成熟的技术了,利用该技术把各个功能模块和被动基础模块相连,能在芯片内可以实现高效堆叠和低延迟互连,能够充分发挥其在高密度、高能耗场景下的优势。
说完了制程工艺,接下来我们回归Panther Lake处理器本身,它由计算模块、图形模块、平台控制模块和基础模块四个大模块所组成,还添加了填充材料填补各模块大小差异造成的空隙。计算模块、图形模块和平台控制模块使用Foveros-S封装工艺安装在基础模块之上,这种设计其实是自第一代酷睿Ultra处理器Meteor Lake一路延续下来的。关于各模块的生产工艺,计算模块是Intel 18A,图形模块有两种,12个Xe核心的用台积电N3E工艺,4个Xe核心的用Intel 3工艺,平台控制模块采用台积电N6工艺,基础模块用的是Intel 16工艺。
Panther Lake有两种计算模块和图形模块,计算模块有4P+8E+4LP E核与4P+4LP E核两种,图形模块有12个Xe核心和4个Xe核心两种。这两种模块有三种组合,两种计算模块都会搭配小的图形模块,但大的12个Xe核心图像模块只会搭配16核的计算模块使用,这些处理器会搭配相同的NPU、IPU以及媒体和显示引擎,但内存和I/O扩展会有些差别。
最小的8核心的版本只支持LPDDR5X-6800或DDR5-6400的内存速率,提供4条PCIe 5.0和8条PCIe 4.0通道,这种配置的产品应该是面向低功耗设备的,也就是Panther Lake-U系列。
16核搭配4Xe GPU的版本支持LPDDR5X-8533或DDR5-7200内存速率,提供12条PCIe 5.0和8条PCIe 4.0通道,它和其他版本相比有更多的PCIe通道,表明它是要搭配独显使用的,基本上就是Panther Lake-H系列。
16核搭12Xe GPU的版本只支持LPDDR5X-9600内存,估计是要为高性能核显提供更高的内存带宽,这是为追求图形和AI性能的轻薄平台而准备的,所以没考虑对独显的支持,扩展能力和8核版本是一样的,只有4条PCIe 5.0和8条PCIe 4.0通道。
所有Panther Lake均可提供4个Thunderbolt 4接口,2个USB 3.2、8个USB 2.0口,支持WIFi 7 R2和蓝牙6.0。
其实Panther Lake的结构更像Lunar Lake,把Lunar Lake的GPU分拆成一个独立模块就是现在Panther Lake的样子,计算模块内部也是采用第二代Scalable fabric(NOC)总线通信,当然了P核与E核之间是使用环形总线通信的,但它们与LP E核就需要走NOC通信了,模块之间则采用D2D界面相互连接。
Arrow Lake最大的问题就是内存控制器被放置在SoC模块里面,计算模块的CPU核心访问内存控制器需要进行跨芯片通信,延迟相当大,Panther Lake和Lunar Lake一样内存控制器放在计算模块内,完全没这个问题。
接下来我们就来看看Panther Lake的两种CPU内核,全新的Cougar Cove性能核与Darkmont能效核。
性能核:Cougar CovePanther Lake所用的P核代号为Cougar Cove,它是在Arrow Lake和Lunar Lake上使用的Lion Cove架构P核基础上优化而来的,执行端口数量和流水线长度都没变化,主要是针对Intel 18A工艺进行优化。采用了基于AI的电源管理,更好的根据CPU实时动态负载变化去调配内部的硬件资源,让核心性能充分发挥同时避免电力浪费。
Cougar Cove主要进行了以下三点优化:
内存消歧,以往CPU在处理内存读写操作时,需要严格遵循指令的顺序,这导致了内存带宽利用率低下。内存消歧允许CPU的多个执行单元进行乱序或并行的内存读写操作,该技术能精准预测哪些操作可以并行执行,哪些存在依赖需要等待,能够显著提升CPU与内存之间的带宽利用率。Cougar Cove相比Lion Cove,消歧技术性能更可靠,细节更准,并且恢复更快。
TLB增强,它是是CPU内部虚拟地址到物理地址的映射缓存,Cougar Cove的TLB容量扩大了50%,让CPU面对更复杂的现代工作负载能够更快、更可靠地运行。
分支预测,Cougar Cove的分支预测相比Lion Cove在预测准确性上有了进一步提高,另外分支预测的延迟也大幅度缩短,让CPU能够将更少的时间花费在预测和修正的开销上,而将更多的时间投入到计算任务中,最终让性能与能效都有所提升。
能效核:DarkmontPanther Lake所用的E核代号为Darkmont,它同样是Arrow Lake和Lunar Lake所用的Skymont的进一步演进,它保留了上代的26个调度端口,引入了内存消歧技术,提升了Nanocode性能,让能效核的执行单元的硬件得到更充分的利用,在提升能效的同时,实现了性能提升。
Darkmont主要进行了以下四点优化:
分支预测,Darkmont可以预测更后面的分支,并且可以提高准确性,降低延迟。
动态预取器控制,预取器能够根据当前的工作负载类型和实时变化,智能地调整预取策略,让执行单元最大限度地保持繁忙状态,提升了性能,在某些场景下还能降低不必要的功耗。
Nanocode,它是比传统Microcode更底层的微操作指令,后者面向CPU逻辑模块,而前者则进一步分解直接面向硬件执行小单元,这种更细粒度的控制,能够更精准、更灵活地调度硬件资源。Darkmont相比Skymont,它的Nanocode能够覆盖更多的指令,可在更多场景下充分释放E核的性能与低功耗优势。
内存消歧,这个其实与Cougar Cove P核的改进是一样的,提升了E核的内存利用率。
缓存和内存子系统Panther Lake的计算模块相比与Lunar Lake,基本上就是把GPU分拆成独立模块,这样就可以更灵活的去搭配不同规格GPU。和Meteor Lake和Arrow Lake相比的话,就是把SoC模块一分为二,I/O部分全部划分到平台控制模块,把剩下的内存控制器、LP-E核、NPU、IPU、媒体与视频单元都并入计算模块。
Panther Lake的缓存和内存子系统的结构基本是延续了Lunar Lake的设计,只不过Lunar Lake上可没有挂在环形总线上的E核。Panther Lake的P核与E核都挂在环形总线上,它们共享18MB L3缓存,Cougar Cove P核每个核心有3MB L2缓存,而Darkmont E核则是每组共享4MB L2缓存。
计算模块上还有一组4个Darkmont E核充当低功耗岛的作用,同样拥有4MB共享L2缓存,它们挂在NOC总线上,所以也没有三级缓存。但Panther Lake延续了Lunar Lake上的内存端缓存设计,LP-E核、NPU、IPU与媒体引擎都可以使用它,内存端缓存可降低这些模块对系统内存的依赖,避免重复读取,有效降低延迟并大幅节省能耗。
代际性能提升在经过多项升级之后,Panther的单线程性能较Lunar Lake和Arrow Lake-H在同功耗时提升了10%,在同样性能的时候最多可降低40%的功耗。
多线程方面,在相同功耗下,Panther对比Lunar Lake有50%的性能提升。与Arrow Lake-H相比,在提供相似的性能的时候功耗最多可降低30%。
硬件线程调度器与软件升级自英特尔在12代酷睿Alder Lake处理器引入混合架构以来,硬件线程调度器就成了一个很关键的东西,它关系到CPU能否把线程分配给正确的核心。
Panther Lake的硬件线程调度器对分类模型做了优化,根据新架构的核心特性进行了分类,给系统更准确的调度指数参考,旧的分类模型不再适用于Panther Lake。电源管理输入也有改善,现在能根据OEM的电源模式是倾向能效还是性能去调整反馈表的内容,能给操作系统一个更加贴近Panther Lake性能的,更能反映真实情况的反馈表。
这些改善扩大了硬件线程调度器的作用范围,原本只有在某些特定场景下发挥功能,现在能做更多场景下看到会有线程调度的动作。这个调度是高度并行的,能够跨三个级别的混合核心之间相互来回调度。
Panther Lake的核心调度其实与Meteor Lake较为相似,线程进来会先分配LP-E核,如果性能不够就把负载调进E核,再不够就让P核来,下面我们来看看实际的应用调度情况。
常用的会议软件Teams,使用时会开启背景虚化和AI特效等。图中的小方块就是操作系统隔离区,当设置效率优先的时候,在Teams使用场景下基本上所有负载都集中在LP-E核,只有零散工作分配给P核与E核,这样就能保证足够低的功耗来提升设备续航时间。
接下来是UL Procyon生产力基准测试,也就是Office套件的测试。在这种混合工作负载环境下,在没有高负载需求时任务都在LP-E核上跑,当检测到需要高性能时,系统会迅速将该负载调度至P核进行处理,从而为用户提供快速响应。
这是在OS不分区的设置下CineBench 2024多线程测试的负载情况,这设置允许操作系统自由调度至各个核心。在初始阶段软件还在启动,仅需少量核心工作。但一旦进入计算密集型阶段,所有核心均开放给操作系统进行调度,从而充分释放多线程性能潜力。
游戏方面测试的是《控制》,在不分区的系统设置下,所有核心都会开放给系统调度,可以看到所有核心都有负载,但《控制》这款游戏对CPU的负载并不大,更侧重GPU,这种调度策略会让CPU消耗过多功耗,挤占了可分配给核显的电力。
在混合模式下,负载会集中在P核与E核上,不会分配给LP-E核,通过这种智能调度,CPU的整体功耗有效降低,节省下来的功耗可以分配给核显,使其获得更多的电力支持,游戏性能提升了10%左右。
英特尔在系统软件层面构建了一个管理堆栈,通过OEM厂商提供的一些性能模式,比如野兽模式、性能模式等,这些模式可以对应英特尔平台软件的某个性能与效率节点,然后再传递给SoC电源管理,再传递给硬件线程调度器,最后通过系统实际反应到SoC的行为上。通过这些软件工具,OEM能够根据其平台需求,在性能与能效曲线上找到最佳配置点,从而满足特定的系统要求。
英特尔还做了一个智能体验优化器,能够在后台根据实时工作负载,自动在预设的性能模式和更高效的节能模式之间进行无缝切换,只要是搭载Panther Lake的设备,在选择平衡模式时,用户即可享受到系统根据实时负载智能调配性能与能效。
新一代Xe3 GPUPanther Lake的核显是基于Xe3 GPU的,但需要明确的是,Xe3并非基于Celestial架构,而是Battlemage的延伸,它会被命名为锐炫B系列,和现在的Battlemage独显一样。未来还会有Xe3P GPU,那个被划分到下一代锐炫系列,大家应该能猜到是什么了。
英特尔GPU里面最基本的构建单元是渲染切片,在Xe3中每个渲染切片中的Xe核心数量从Xe2的4个扩展到6个,光追单元数量也跟着增加至6个,从而提供更强大、更充足的计算能力。
上面已经说过了,Panther Lake有两种GPU配置,4个Xe核心的GPU包含32个XMX引擎、4MB L2缓存、1个几何管线、4个采样器、4个光线追踪单元、2个像素后端。
12个Xe核心的GPU包含96个XMX引擎、16MB L2缓存、2个几何管线、12个采样器、12个光线追踪单元、4个像素后端,拥有更强大的性能。Lunar Lake上面的Xe2核显配备8MB L2缓存,现在翻倍到16MB,内存访问量可以有效减少17%~36%,能够提供更流畅的运行体验。
Xe3从引擎到切片进行了全面优化,包括第三代Xe核心、更强的光线追踪单元、优化的Xe矢量引擎以及更出色的图形专用硬件管线。
第三代Xe核心包括8个512位矢量引擎和8个2048位XMX引擎,这点与Xe2是一样的,但L1缓存容量增加了33%,赋予了Xe核心更强大的性能。
新的Xe矢量引擎线程数增加了25%,添加了可变寄存器,有效提升了Xe矢量引擎的使用效率,使得相同的硬件能够支持更多、更快的负载。它支持原生FP8反量化,以及SIMD16原生ALU、三路并发、扩展数据指令集与FP64,并支持Xe矩阵扩展。
XMX AI加速引擎是AI运算核心算力的来源,可提供高达120TOPS的算力,每个时钟周期可执行1024个XMX TF32操作,支持2048个XMX FP16/BF16运算,4096个XMX INT8运算和8192个XMX INT4/INT2运算,这些都比上一代有了显著提升。
光线追踪单元支持异步光线追踪的动态光线管理,可大幅提升光线追踪负载下的性能。
Xe3采用更优的固定功能管线,配备全新的URB管理器,它用于GPU内部子单元之间的数据转换和传输。在以往的URB设计中,即使只传输少量数据,也需要对整个URB进行同步,效率低下。新的URB管理器设计允许对部分URB进行传输同步,最高可支持2倍的异向性过滤,并使模板测试速率最高提升2倍。
Xe3拥有第三代Xe核心、更强的光线追踪单元、更高利用率的Xe矢量引擎以及更优的图形专用硬件管线,这些共同带来了显著的性能提升。
Panther Lake上的Xe3核显,前一代Lunar Lake的Xe2,性能提升可超过50%。若与使用更早Xe架构的Arrow Lake-H相比,新的核显实现了40%的每瓦性能提升。
最后英特尔还预告了会在Xe3上推出多帧生成功能,支持一帧原始画面生成四帧输出画面,将是未来XeSS 3核心部分之一。其通过抓取运动向量和深度缓冲区构建的光流网络,基于AI技术,实现更流畅的游戏画面。XeSS-MFG多帧生成技术分为游戏内支持与驱动内支持,所有支持XeSS 2里XeSS-FG的游戏都能直接支持,不需要额外去做适配。
XeSS-MFG多帧生成技术支持所有配备XMX硬件的锐炫GPU,从锐炫A系列到锐炫B系列独立显卡,还有各种依托Xe系列架构的核显产品,这让英特尔成为首个将多帧生产引入到多代硬件的公司。
第五代NPUPanther Lake上使用了英特尔第五代NPU,也就是NPU5,它主要是提升了芯片面积效率,NPU5在每个神经计算引擎中都拥有更大的MAC单元,更大的MAC单元能带来更高的计算密度和运算效率。所以NPU5相比于NPU4,每个Slice中的神经单元数量从6个减少到3个,但每个神经计算引擎的计力翻倍,这有效提升了整体运算效率和Die size的利用率。
NPU5的Slice包含三个神经计算引擎,提供12K的矩阵运算能力、4.5MB的暂存器内存、6个SHAVE DSP以及256KB的L2缓存,这些较上一代都有提升。
NPU5的计算效率相对于NPU4有显著提高,单位面积下的TOPS性能提升超过40%,可以看到新的NPU5芯片面积明显小于NPU4。
NPU5支持INT8和FP8量化的运算,目前在推理任务中8位的模型是较为常用的,且精度损失在可接受范围内,NPU5每周期可以进行2048个INT8或FP8的MAC运算,而FP16则是每周期2048,效率比NPU4有两倍的提升。
NPU5可提供高达50TOPS的计算能力,这主要得益于超过40%的单位面积TOPS提升,以及针对AI负载的特定优化,包括对激活函数的支持和原生FP8的数据类型支持,从而显著提升了NPU的算力。
整个Panther Lake SoC可提供高达180TOPS的平台算力,其中CPU算力为10TOPS,NPU为50TOPS,GPU贡为120TOPS。算力提升并非简单的数字叠加,而是不同的硬件单元可以被用在不同的负载上。CPU主要支持轻量级AI工作负载,NPU用来支持一些持续性低功耗的AI负载,而GPU则服务于高吞吐量、高性能要求的负载。
总结最后来总结一下,Panther Lake的性能和能效都得到了明显的提升,单线程性能在同功耗下较Lunar Lake提高了10%,综合性能同功耗下提升了50%。在提供相同的多线程性能时,功耗比Arrow Lake-H降低了30%。GPU性能综合提高了50%。新的NPU5将比上代的NPU4有超过40%的单位面积TOPS提升。整个SoC的功耗相比Lunar Lake下降可达10%,相比Arrow Lake则有高达40%的功耗降低。
Panther Lake还配备新的IPU7.5,支持增强型HDR,支持AI降噪和基于AI驱动的局部色调映射,可以提供更生动的视频和照片。还支持Wi-Fi 7 R2与蓝牙6,有更好的无线连接体验。
预计Panther Lake会在明年CES上正式发布,而搭载该处理器的笔记本电脑将在2026年第一季度陆续上市,还有3个月的时间给英特尔和OEM合作伙伴去打磨自己的产品,从处理器的规格来看,Panther Lake只会覆盖U和H两个产线,由于核心规模过小,HX的高性能处理器还是得靠老产品继续服役。
来源:超能网