摘要:大型语言模型(LLMs)正在迅速逼近当代计算硬件的极限。例如,据估算,训练GPT-3大约消耗了1300兆瓦时(MWh)的电力,预测显示未来模型可能需要城市级(吉瓦级)的电力预算。这种需求促使人们探索超越传统冯·诺依曼架构的计算范式。
大型语言模型(LLMs)正在迅速逼近当代计算硬件的极限。例如,据估算,训练GPT-3大约消耗了1300兆瓦时(MWh)的电力,预测显示未来模型可能需要城市级(吉瓦级)的电力预算。这种需求促使人们探索超越传统冯·诺依曼架构的计算范式。
本综述调查了为下一代生成式AI计算优化的新兴光子硬件。我们讨论了集成光子神经网络架构(如马赫-曾德干涉仪阵列、激光器、波长复用微环谐振器),这些架构能够实现超高速矩阵运算。同时,我们也研究了有前景的替代类神经设备,包括脉冲神经网络电路和混合自旋-光子突触,它们将存储与计算融合在一起。本文还综述了将二维材料(如石墨烯、过渡金属二硫族化合物,TMDCs)集成进硅基光子平台,用于可调制器和片上突触元件的研究进展。
我们在这种硬件背景下分析了基于Transformer的大型语言模型架构(包括自注意力机制和前馈层),指出了将动态矩阵乘法映射到这些新型硬件上的策略与挑战。随后,我们剖析了主流大型语言模型的内部机制,例如chatGPT、DeepSeek和Llama,突出了它们架构上的异同。
我们综合了当前最先进的组件、算法和集成方法,强调了在将此类系统扩展到百万级模型时的关键进展与未解问题。我们发现,光子计算系统在吞吐量和能效方面有可能超越电子处理器几个数量级,但在长上下文窗口、长序列处理所需的存储与大规模数据集的保存方面仍需技术突破。本综述为AI硬件的发展提供了一条清晰的路线图,强调了先进光子组件和技术在支持未来LLM中的关键作用。
引言
近年来基于Transformer的大型语言模型(LLMs)的快速发展极大地提高了对计算基础设施的需求。训练最先进的AI模型现在需要巨大的计算与能耗资源。例如,GPT-3模型在训练期间估计消耗了约1300兆瓦时的电力,而行业预测表明,下一代LLM可能需要吉瓦级的电力预算。这一趋势与大规模GPU集群的使用同时出现(例如,Meta训练Llama 4时使用了超过10万个NVIDIA H100 GPU的集群)。与此同时,传统硅基芯片正接近其物理极限(晶体管特征尺寸已达约3纳米),冯·诺依曼架构也受限于“存储器–处理器”瓶颈,从而限制了速度与能效。这些因素共同凸显出LLMs日益增长的计算需求与传统CMOS电子硬件能力之间的鸿沟。
这一挑战促使人们探索替代计算范式。光子计算利用光来处理信息,天然具有高带宽、超强并行性与极低热耗散等优势。近期在光子集成电路(PICs)上的进展,使得构建神经网络基本模块成为可能,例如相干干涉仪阵列、微环谐振器(MRR)权重阵列,以及用于执行密集矩阵乘法与乘-加操作的波分复用(WDM)方案。这些光子处理器利用WDM实现了极致的并行性与吞吐能力。
与此同时,将二维材料(如石墨烯与TMDCs)集成入PIC中,催生了超高速的电吸收调制器与可饱和吸收体,成为片上的“神经元”与“突触”。作为光学的补充,自旋电子类神经设备(如磁隧道结和斯格明子通道)提供非易失性突触存储和类神经脉冲行为。这些光子与自旋电子类神经元件从物理机制上实现了存储与处理的合一,为能效优化的AI计算开辟新途径。
将基于Transformer的LLM架构映射到这些新型硬件平台上,面临诸多挑战。Transformer中的自注意力层涉及动态计算的权重矩阵(query、key和value),这些权重依赖于输入数据。设计可重构的光子或自旋电路以实现这种数据依赖型操作,正成为活跃研究领域。此外,在光子/自旋子媒介中实现模拟非线性(如GeLU激活函数)与归一化仍是重大技术难题。
为应对上述问题,研究者提出了许多“硬件感知”的算法设计策略,如适用于光子计算的训练方法以及能容忍模拟噪声和量化误差的神经网络模型。
本综述余下部分结构如下:
第2节:介绍光子加速器架构,包括相干干涉仪网络、微环权重阵列与基于波分复用的矩阵处理器;
第3节:探讨二维材料在光子芯片上的集成(如石墨烯/TMDC调制器、光子忆阻器);
第4节:分析替代类神经设备,特别是自旋电子在类神经计算中的应用;
第5节:总结主流LLM与Transformer架构原理,并探讨如何将其映射到光子芯片上,强调在光子与类神经硬件上实现注意力机制与前馈层的策略;
第6节:介绍脉冲神经网络的机制与实现算法;
第7节:指出系统层面的关键挑战并展望未来方向。
本综述力图为下一代AI硬件发展绘制出基于光子与自旋电子技术的完整路线图。
光子神经网络与光子计算的前沿器件
光子神经网络(PNN:Photonic neural networks)依托多种光学器件之间的协同作用实现高效计算:微环谐振器利用共振效应进行波长复用与光频梳生成,为多波长信号处理奠定基础 ;马赫-曾德干涉仪(MZI:Mach-Zehnder interferometer)阵列通过相位调制实现光学矩阵运算,是神经网络中核心线性变换的关键元件 ;超构表面通过亚波长结构调控光波的相位与幅度,能在衍射域内执行高度并行的光学计算 ;4f系统通过傅里叶变换在衍射域中实现线性滤波功能;而新型激光器则通过电光转换机制实现非线性激活功能。这些器件集成了光场调控、线性变换与非线性响应能力,构建出高速、低功耗、强并行的全光计算架构。
本节将介绍当前光学神经网络实现中常用的器件。
微环谐振器
微环谐振器(MRRs)(见图1)的重要性不仅体现在它们在波分复用(WDM)中的作用,还体现在其独特的滤波特性,例如光频梳生成。WDM允许不同波长的信号在同一波导中同时传播而不会产生干扰:通过设计微环的半径与折射率以支持特定的共振波长,满足共振条件的光将耦合进环形腔体中持续振荡,在透射谱上表现为明显的吸收凹槽。
而光频梳则源于高Q值(低损耗)微腔中的参量振荡:当注入连续波(CW)泵浦激光后,光子会经历非线性效应(如Kerr非线性),从而自发地产生等间距的光谱线,形成梳状频谱。WDM与频梳生成的结合,使多波长信号可通过共享波导进行合成与传输,实现波长复用与空间复用的统一。
微环的其他特性也得到了利用。例如,利用微环的热光效应,在微环上加入了具有激射阈值的相变材料,实现了类似神经网络中ReLU函数的非线性效果。
图1:微环谐振器a)通过微环谐振器权重阵列可实现类神经光学神经网络(ONN); b)展示了全光脉冲神经网络的原理与实验设置;c)开发了一种基于时间-波长复用的光子卷积加速器;d)提出了一种基于微梳与相变材料的片上光计算架构;e)展示了用于情绪识别的微梳卷积ONN芯片设计
图2:马赫-曾德干涉仪(MZI)a)提出了支持实时在线学习的ONN训练方法;b)展示了结合MZI与衍射光学元件的集成光子神经网络架构;c)演示了基于MZI阵列的光子神经网络的在线反向传播训练方法
马赫-曾德尔干涉仪
(Mach-Zehnder Interferometer)
MZI 阵列(见图2)可有效执行光学矩阵-向量乘法(MVM)运算:它由两个光学耦合器/分束器和两个调制器(可通过外部电路控制)组成。输入光通过分束器被分成两路,调制器调节两路之间的相位差,最后通过光学耦合器重新组合成干涉光。每个 MZI 对光信号执行二维酉变换(复数域的正交变换),在数学上等价于一个 2×2 的酉矩阵。当多个 MZI 按特定拓扑结构(如网格)级联时,它们的整体行为可对应于高维酉矩阵的分解,因为任意 N 维酉矩阵都可以分解为一系列二维酉变换。因此,MZI 阵列可以实现类似于神经网络中权重矩阵的可编程酉变换。
输出的光信号可进一步通过光电手段进行转换,并与电子器件集成,实现非线性激活函数,从而完成神经网络的前向传播。
超表面(Metasurface)
超表面在神经网络应用中的运行主要依赖于“面”之间的光的衍射与干涉。超表面是一种由亚波长尺度结构单元组成的材料,能够调制光波的性质,包括相位、幅度、偏振和频率。这些结构通常具有超薄、轻质和高集成密度(支持大规模并行)的特点,其实现方式多样,如基于绝缘体上硅(SOI)的设计、复合惠更斯超表面、单层全息感知器等。由于衍射和干涉本质上是线性过程,因此要实现非线性计算需要额外机制,如利用超表面材料的光电效应 。
多层衍射架构(见图3)通过堆叠的二维表面作为高密度排列的神经元层实现。通过控制每个衍射层中空间位置处的相对厚度或材料特性,可调节光的相位和幅度。或者, 在一块平面表面上制造一维高对比透射阵列超表面(见图4),例如,在标准 SOI 基底上蚀刻空气槽(后续可填充二氧化硅),槽的间距(晶格常数)和宽度固定,通过改变槽的长度来控制相位。
图3:二维超表面
a) 二维衍射深度神经网络(D2NN)中推理机制的概念图示。
b) 通过衍射光学神经网络(DONN)实现逻辑运算的实验配置。
c) 纳米打印的光学感知器实现芯片级计算。
d) 利用数字型超原子阵列的可重构DONN架构。
图4:一维超表面
a) 一维DONN在光子机器学习中的实验验证。
b) 基于仿真的芯片级DONN验证,支持光速计算。
c) 介电超表面实现用于傅里叶变换与空间微分的芯片级波前控制。
图5:4f系统
a) 使用4f光学系统的混合光电卷积神经网络(CNN)。
b) 完全光学神经网络(ONN)架构,将深度衍射神经网络集成于4f成像系统的傅里叶平面上。
4f 系统(见图5)利用光场信号(如图像)通过第一枚透镜进行傅里叶变换。在透镜后的傅里叶面上,调制设备(如相位掩膜、空间光调制器 SLM)对频谱进行滤波或加权调整。经调制后的频谱再通过第二枚透镜进行反傅里叶变换,生成输出光场。超表面材料可替代传统透镜间的调制设备 。
其他类型激光器
激光器作为一种具有高相干性、单色性和方向性的独特光源,也被应用于光神经网络(ONN)(见图6)。
图6:其他类型的激光器
a) 使用垂直腔面发射激光器(VCSELs)的全光尖峰神经网络(SNN)理论分析。
b) 基于VCSEL的全光SNN进行有监督学习。
c) 用于SNN中软硬协同计算的FP-SA神经元芯片。
d) 基于分布反馈-饱和吸收(DFB-SA)激光器的光子集成尖峰神经元的实验演示
例如,垂直腔面发射激光器(VCSEL)在研究中已被理论提出并在实验中验证。在 VCSEL 中,电流通过电极注入有源区,电子与空穴在量子阱层中复合,产生光子。这些光子在两个分布式布拉格反射镜(DBR)之间来回反射,多次穿过有源区并被放大。当增益(光放大能力)超过腔体损耗(吸收、散射等)时,达到阈值条件,激光输出就会产生。一项研究利用了 VCSEL 阵列的特性:在被主激光器锁模时可以保持相同的初始相位。在该研究中,特征数据被编码为电信号来调节一个 VCSEL 的泵浦电压,从而调节其输出光的相位;同样,权重矩阵的每一列也被编码为电信号,调节其他 VCSEL 的输出光相位。利用光束分离器和耦合器,使代表 MNIST 数据的 VCSEL 的输出光与其他 VCSEL 的输出光干涉,光电探测器收集光信号,并将其求和成电信号,作为下一层 VCSEL 阵列的输入,实现前向传播。在最终输出层,输出电信号最强的光电探测器对应于输出标签。
另一个例子是带有腔内可饱和吸收体(SA)的分布反馈激光器(DFB-SA)。DFB 激光器的腔体内含有周期性光栅结构,可提供光反馈以实现单波长输出。可饱和吸收体(SA)区域位于激光腔高反射端附近。在低泵浦电平下,SA 吸收光子,抑制激光输出;在高泵浦电平下,SA 释放光脉冲(Q开关效应)。因此,当增益电流超过 DFB-SA 的自脉冲阈值时,SA 的周期性吸收调制会产生脉冲输出,其输出频率与泵浦强度呈非线性正相关,可作为脉冲神经网络(SNN)的基本单元。在此结构中,DFB 激光器也可以被传统法布里-珀罗(FP)激光器取代 。
利用二维材料制造集成光子芯片
集成光子芯片作为下一代 AI 硬件的关键技术之一,正逐步崛起。这类芯片利用光进行计算和通信,具有高速与高能效的优势。为了实现这一应用,将二维(2D)材料,主要是石墨烯和过渡金属二硫族化物(TMDCs),集成到芯片中,能够显著提升功能与性能。本节将探讨这些材料的特性、集成技术、应用场景以及其在 AI 光子芯片应用中面临的挑战。
石墨烯和 TMDCs 的关键特性
石墨烯因其优异的光学与电子性能,在光子学领域引发革命。尽管其厚度仅为一个原子层,却能在宽光谱范围内吸收约 2.3% 的入射光,这使其在光学调制与探测方面非常有效。此外,石墨烯超快的载流子迁移率支持高速调制与低功耗运行,这对于能效至上的 AI 硬件至关重要 。同时,石墨烯表现出强烈的非线性光学特性,可用于频率变换、全光开关及其它高级功能,使其在该领域的重要性进一步提升。
另一方面,TMDCs(如 MoS₂ 和 WS₂)以可调带隙和强激子效应补充了石墨烯的不足。这些材料在单层状态下具有直接带隙,增强了光与物质的相互作用,因而特别适用于光电探测器和波导。TMDCs 也展现出强非线性光学响应,能在芯片上实现倍频和参量放大等高级功能。
基于上述材料特性与优势,石墨烯与 TMDCs 显然是推动 AI 光子芯片发展的关键材料。
集成技术
将二维材料集成到光子芯片中涉及多种先进封装工艺,主要包括:
转印法(Transfer Printing):将二维材料的薄层剥离后转印至硅基底,无需粘合剂,能保持其本征光学性能,并实现对光子结构(如波导、谐振器)的精确定位。
混合集成(Hybrid Integration):将石墨烯或 TMDCs 与现有硅光平台结合,增强光-物质相互作用。例如,石墨烯已用于在微环谐振器中实现高速调制器,该混合器件可实现太赫兹级别调制速度,同时保持低功耗 。
范德华异质结构(Van der Waals Heterostructures):通过堆叠不同的二维材料,形成具有可调带隙和各向异性折射率的异质结构。这些结构被视为优化波导约束因子的理想方案。
近期的研究还表明,采用与 CMOS 工艺兼容的技术,可以实现基于石墨烯器件的晶圆级集成。这一突破为大规模生产含二维材料的光子芯片奠定了基础。
图7:晶体结构
a) 石墨烯,b) 过渡金属二硫化物(TMDC),c) 黑磷,d) 六方氮化硼(h-BN)晶体结构图。
图8:图示(左)与光学显微镜图像(右)展示了目前主要的机械方法之一——柔性剥离与转印法的步骤。步骤如下:
a) 将材料沉积在玻璃基底上,
b) 小心地将图案化的聚二甲基硅氧烷(PDMS)印章“上墨”,
c) 将“上墨”后的印章接触加热的硅/二氧化硅(Si/SiO₂)基底,
d) 撕开印章,留下沉积材料。
图9:不使用腐蚀剂构建范德华异质结构的水浸法流程示意图。
光子芯片中的应用
集成石墨烯和过渡金属二硫化物(TMDCs)的光子芯片在人工智能工作负载中展现出变革性的应用:
一、光调制器
基于石墨烯的调制器已展示出卓越的速度和带宽性能——通过将石墨烯与硅波导集成,研究人员实现了能够在超过100 GHz频率下运行的调制器。这些调制器特别适用于人工智能系统中所需的高速数据传输应用场景。
二、光电探测器
石墨烯在光电探测器中的应用颇为令人惊讶,由于其频率无关的吸收特性以及在与强吸光材料结合使用时所展现的极高载流子迁移率,使得其性能优于传统材料 [graphenea]。研究在使用混合石墨烯-量子点光电探测器方向取得进展,这类探测器被作为宽带图像传感器集成到CMOS相机中,以实现高响应率 [graphenea]。
总体而言,二维材料在波导集成光电探测器方面具有多项优势,包括尺寸最小化、信噪比提升以及在宽带宽和高量子应用中的效率提高。
TMDCs被用于制造在可见光和红外波段均具有高响应率的光电探测器,利用其物理特性提升探测性能。这类探测器使AI驱动的边缘设备能够高效获取数据 [26]。混合石墨烯-量子点光电探测器也在研究中,旨在在保持CMOS兼容性的前提下进一步增强宽带探测能力 [26]。
三、波导
范德瓦尔斯材料的使用使得超薄波导得以实现,并具有低传播损耗的特性。通过将硅光子学与波导集成的石墨烯相结合,实现了全可调性、宽带和高速运行等特性。
总体而言,这种波导应用使光子电路得以小型化,同时保持AI硬件所需的性能指标,在该领域推动显著进步 。
图10:依赖二维材料的波导集成光电探测器技术路线图。
图11:集成在CMOS电路中的石墨烯-量子点光电探测器。
非线性光学
TMDCs表现出强烈的非线性响应,从而开启了诸如频率转换和全光信号处理等高级功能的大门。这些能力对于在芯片上直接实现非线性光学功能及实现芯片级量子计算至关重要 。
基于石墨烯的器件也展现出在类脑架构如光子神经网络方面的潜力——近期一项研究提出了一种嵌入微环谐振器中的基于石墨烯的突触模型,能够使用多波长技术构建大规模神经网络,这一方法有望显著加速大语言模型的训练过程。
表1:在技术上具有重要意义的电信波长下,常见二维材料与用于硅及硅混合集成方案中的CMOS兼容平台主材的二阶和三阶非线性光学参数。该表表征了多种混合波导的非线性响应,展示了二维材料在当前AI背景下的性能潜力。
案例研究:基于光子芯片的AI硬件
集成二维材料的光子芯片因其能够以接近光速的速度执行计算任务,而比现有技术更快,因此在AI硬件方面展现出极大前景。例如:
麻省理工学院的研究人员展示了一种能够以光学方式执行深度神经网络计算的全集成光子处理器。该芯片通过集成非线性光学功能单元(NOFUs)实现了超低延迟和极低功耗,在不到半纳秒内完成了机器学习分类任务的关键计算,同时准确率超过92%(与现有技术表现一致)。此芯片还采用商用工艺制造,为这一新技术的规模化铺平了道路。
哥伦比亚大学开发了一种节能的数据传输方法,通过在光子芯片上利用Kerr频率梳,使研究人员能够通过不同且精确的光波长传输清晰信号。这一创新提高了带宽密度并降低了能耗,这两者都是提升大型语言模型训练系统可扩展性的关键因素。
Black Semiconductor公司新设立了名为FabONE的总部,专注于开发基于石墨烯的光子连接解决方案,以实现更快速的芯片间互连。这项技术将推动高性能计算、人工智能、机器人技术、自动驾驶等领域的发展,特别是在AI模型的超高速训练过程方面。
这些突破性进展凸显了集成二维材料的光子芯片在加速AI基础设施革命方面的潜力,特别是在速度、可扩展性和能效方面的瓶颈突破。
图12:基于克尔频率梳驱动的硅光子链路的分层结构艺术示意图。
挑战与未来方向
尽管潜力巨大,与所有新技术一样,要充分实现二维材料在集成光子学中的价值,还面临诸多挑战:
一、可扩展性
超薄二维材料的脆弱性在大规模制造过程中带来挑战,需要在转印技术和晶圆级合成方面取得进展,才能使这项技术真正具备可扩展性 。
二、材料稳定性
包括石墨烯和TMDCs在内的一些二维材料在环境条件下会降解。为了让这项技术得到广泛采用,必须开发保护涂层、封装技术或一般性的保存方法,以保障其长期可靠性 [38]。
三、集成复杂性
要实现与现有CMOS工艺的无缝集成,需要在各种技术手段和界面工程上进一步优化,才能使这项新技术顺利进入主流应用。
未来的研究应聚焦于解决上述挑战,同时继续探索与石墨烯和TMDCs互补的新型材料系统。二者结合,将推动由电子、光子和基于二维材料的组件构成的混合平台发展,为AI硬件和技术带来颠覆性进步铺平道路。
用于光子类脑计算芯片的自旋电子学
纳米光子学作为一门新兴的交叉学科,融合了纳米技术和光子学原理,旨在探索和利用纳米尺度结构对光波的调控能力。在光子学领域,主动器件与被动器件均扮演着重要角色,并具有广阔的应用前景。类脑系统通过借鉴神经网络的原理,试图模拟人脑的计算与认知能力。本节将系统探讨自旋电子器件与纳米光子结构在类脑计算中的协同集成。
类脑计算的背景与挑战
类脑计算的提出源于传统冯·诺依曼架构的根本性限制。传统计算系统受到“冯·诺依曼瓶颈”的困扰,即处理单元与存储单元的物理分离导致在数据传输中产生过高的能耗与延迟。随着处理器与存储之间性能差距的扩大,这一瓶颈进一步加剧,被称为“存储墙”。现代计算机在模拟基础脑功能时需消耗兆瓦级功率,而生物大脑仅使用20瓦功率却能实现惊人的认知能力。
与此同时,半导体产业面临晶体管微缩趋于极限、摩尔定律停滞等生存性挑战。这场架构危机与晶体管缩放危机共同促使人们对类脑计算范式产生浓厚兴趣。
类脑计算通过三项关键创新应对上述挑战:1)计算与存储的共址;2)信息的模拟编码;3)大规模并行连接 。尽管神经网络的理论框架可追溯至McCulloch与Pitts的二值神经元模型(1943年)以及之后的深度学习发展,但实际实现面临严重的硬件限制。
基于CMOS的晶体管阵列实现缺乏非线性动力学、长期可塑性和随机性等基本神经生物特性。新兴的非易失性存储器技术(尤其是忆阻器 )使更具生物逼真度的实现成为可能,但材料限制依然存在。阻变RAM(RRAM)、相变材料和铁电器件在耐久性、速度和可控性之间存在权衡,限制其大规模部署能力。
三代神经网络凸显了硬件需求的不断演进:1)以阈值操作为核心的第一代感知机;2)要求连续非线性激活函数的第二代深度神经网络(DNN);3)依赖精确时间编码和事件驱动处理的第三代脉冲神经网络(SNN)。虽然DNN主导当前AI应用,SNN因稀疏、基于脉冲的通信方式而在生物逼真度与能效方面表现更优 。
然而,SNN的硬件实现尤为困难,需要器件能本征地模拟生物神经元的“泄漏积分-发放”(LIF)动态,以及突触的“基于脉冲时序的可塑性”(STDP)。当前采用CMOS电路或新型忆阻器的解决方案,或缺乏基本类脑特性,或在耐久性与随机控制方面存在局限性。这种硬件-算法之间的落差从根本上限制了类脑计算实现类脑效率与适应性的潜力。
神经形态计算中的核心优势与
关键自旋电子技术
自旋电子器件具备独特优势,使其成为神经形态计算硬件的领先候选。其内在的非易失性、超快动态响应(>1 GHz)以及几乎无限的耐久性(10^15 次循环)能够实现高能效、符合生物逻辑的神经网络实现方式。关键在于,自旋电子技术利用磁性和自旋相关现象,天然模拟神经-突触功能,同时保持与传统 CMOS 制造工艺的兼容性。其三大核心优势包括:
(1)磁化翻转和自旋进动中的随机性可映射为神经元的概率性发放机制,从而实现事件驱动的脉冲神经网络(SNNs),具备稀疏编码效率 ;
(2)多态磁化动态(如磁畴壁运动、磁涡旋核化)展现模拟忆阻特性,是调控突触权重的关键 ;
(3)非易失状态保持特性可消除空闲期间的静态功耗。
这些特性有效缓解冯·诺依曼架构瓶颈,并在速度与可靠性方面优于其他忆阻技术 。
磁隧道结(MTJ)是基础的自旋电子构件,能够在两种运行模式下展现多样神经形态功能。在超顺磁模式下,MTJ 在平行与反平行状态间的随机翻转可生成泊松分布脉冲,应用于概率计算 ,在 CoFeB/MgO 结构中实现高达 604% 的隧道磁阻比(TMR)。当作为自旋转矩纳米振荡器(STNO)使用时,MTJ 可产生 GHz 级的电压振荡,并与外部刺激同步,用于构建耦合振荡器网络以实现模式识别 。自旋轨道转矩(SOT)器件通过重金属/铁磁体双层结构实现无场磁化翻转,扩展了这些能力。SOT 驱动的自旋霍尔纳米振荡器(SHNOs)在二维阵列中可实现互同步,三端结构的 MTJ 则通过读写路径分离增强突触精度 [Fukami2016]。磁纳米线中的磁畴壁运动提供连续的电阻调制,适用于模拟突触,实现每次突触更新能耗为 32 meV。
新兴的拓扑自旋结构如磁涡旋(skyrmion)具备类粒子动态,可用于生物启发计算模型。在手性磁体中,直径小于 100 nm 的涡旋的生成与湮灭模拟神经递质释放的概率机制,阈值电流为 10 μA 。反铁磁(AFM)自旋电子学提供 THz 级动态响应和无杂散磁场特性,通过补偿磁矩实现高密度交叉阵列。基于 AFM 的突触展现 100 ps 的翻转速度和高达 200°C 的热稳定性]。
这些技术的融合使得构建“全自旋神经网络”成为可能:结合基于 STNO 的神经元 [Romera2018]、磁畴壁忆阻突触与涡旋概率互连,该硬件生态系统在物理层面协调设计,解决了存储-计算分离难题。
自旋电子技术在系统层级的应用探索
自旋电子神经形态系统通过基于物理机制的架构创新,在认知计算模式中展现变革潜力。一项前沿实现中,四个同步运行的自旋转矩纳米振荡器(STNOs)处于耦合的微波发射状态,用于实时元音识别任务,准确率达到 96%,比等效的深度学习网络高出 17%,且每次分类仅消耗 3 mW 功耗 。该事件驱动架构利用 2.4 GHz STNO 阵列的固有频率复用特性,将时间语音信号直接映射到振荡器的同步状态,从而省去了模数转换的开销。
对于大规模实现,32×32 元素的自旋霍尔纳米振荡器(SHNO)交叉阵列通过传播的自旋波在 100 µm 距离上实现互相锁相,从而通过集体动态而非离散突触权重完成模式补全任务。
磁涡旋网络通过拓扑保护的粒子相互作用引入概率计算能力。在手性磁体中,50–100 nm 尺寸的涡旋网络通过核化密度编码概率分布,构建贝叶斯推理引擎,实现气象预测模型中的 92% 准确率,在 10^5 个随机状态下进行存内采样。该方案相较于 GPU 实现的蒙特卡洛仿真,能耗减少了 10 倍,通过模拟电流控制的状态重组方式实现。
反铁磁(AFM)自旋电子器件具备抗杂散场和 1 THz 动态性能,可实现超高密度结构。在 IrMn 基交叉阵列中,每次突触更新的实验能耗为 4 fJ,权重漂移在 10^12 次循环内保持在 0.1% 以下。
在储备计算(Reservoir Computing)实现中,系统利用非线性磁化动态进行时间信号处理。单个旋涡型 STNO 通过时间复用进动状态等效于 400 个神经元,解决 Mackey-Glass 混沌时间序列预测任务时,归一化均方误差仅为 0.012 。基于涡旋的储备结构利用无序磁结构中的新兴相互作用处理 10 MHz EEG 信号,功耗为 20 μW,成功实现实时癫痫发作检测,依赖自旋结构动态中的分叉检测机制。
展望大规模部署,结合 STNO 神经元、磁畴突触与 AFM 互连的“全自旋神经网络”有望实现 >100 TOPS 的认知计算性能,系统功耗低于 10 mW,通过在物理层面联合设计神经-突触功能结构达成。
图13:用于存储应用的磁隧道结。
a、一种磁隧道结由两个铁磁层(灰色)夹着一层绝缘层(蓝色)组成,其中一层的磁化方向固定,另一层的磁化方向可与其平行(低电阻)或反平行(高电阻)。标签“1”和“0”分别表示这两种状态。
b、高密度存储用的磁隧道结交叉阵列(磁性随机存储器)。通过激活相应的字线(红色),允许底部位线与顶部感应线(均为蓝色)导通,从而测量某个特定隧道结的电阻。通过施加足够的电流可以切换磁化方向。
c、联想记忆:(i) 来自MNIST数据集的手写数字用于训练联想记忆;(ii) 训练后输入的测试样本;(iii) 测试输入产生的训练网络输出,显示成功的联想。[]
图14:基于自旋电子学的忆阻器。
a、畴壁忆阻器:磁隧道结的电阻取决于畴壁位置,从而改变高电阻反平行态与低电阻平行态的相对面积。
b、基于Skyrmion的忆阻器:设备的电阻取决于固定层下方的Skyrmion数量。
c、细磁畴隧道忆阻器:在与多晶反铁磁体耦合的隧道结中,由于各个磁畴的切换特性不同,使得磁畴可以在不同条件下独立翻转。设备的电阻由与固定层磁化方向一致的磁畴所占比例决定。
d、自旋电子联想记忆:每个非对角矩阵元素的值通过忆阻器的配置存储,用不同的电平表示。这些电平经过训练,使得在矩阵与输入相乘后,结果最接近训练集中的某一元素。乘法运算通过施加对应输入的电压并测量相关忆阻器的输出电流完成。d图下方的前三个图像为网络训练识别的图像,第四个为其中一个图像的“噪声”版本,第五个为重构后的正确图像。
当前挑战与未来方向
长上下文窗口与长序列下的内存问题
内存与上下文窗口: 光子加速器通常缺乏足够的片上内存来缓存长序列的tokens。现代LLM推理可能涉及上万个tokens,需要存储激活值、键/值对以及整个上下文中的中间状态。由于片上通常缺少大容量SRAM或NVM,光子系统只能将数据流进流出,这重新引入了冯·诺依曼瓶颈。正如Ning等人所指出,“数据移动经常成为整个系统的瓶颈”,这一问题不仅存在于传统电子处理器,也同样适用于光处理器。实践中,有限的片上内存迫使光子LLM实现从外部DRAM或硬盘中获取上下文,从而带来延迟并破坏全光计算流水线。
诸如“检索增强生成”(retrieval-augmented generation)等新兴用例进一步加剧了这一问题:对多TB文本语料库进行近实时搜索与分词,又引入一轮高开销的内存访问。简而言之,光子芯片的有限存储能力限制了LLM的上下文长度与吞吐量,使得长序列推理成为一个主要挑战。
光子计算系统中大规模数据集的存储问题
存储与I/O瓶颈: 大语言模型及其训练数据或知识库涉及PB级甚至更大的数据集。光子加速器仍依赖于高速外部存储与内存来提供这些数据。所需的I/O带宽常常超出现有接口的处理能力:即使光核本身运行极快,但如果无法快速供数,也会造成资源浪费。分析人士警告LLM面临越来越严重的“内存墙”,数据移动成为主导限制因素。
现实工作负载使情况更为严峻:例如检索增强型LLM需反复提取和处理大量文本块,对I/O系统造成极大压力。有些提议(如将权重存储与计算单元共置的非易失性存储)可减少I/O开销(一项研究报告使用片上Flash存储权重可减少1000倍I/O),但考虑到数据集体量,多TB语料库的缓存、调度与总线带宽仍将是光子LLM系统中的关键瓶颈。
精度与转换开销问题
光子计算本质上是模拟的,因此很难表示LLM推理所需的高精度张量。当前最先进的光子Transformer设计依赖高分辨率ADC/DAC来保持精度,而这些转换器消耗了大部分芯片面积与功耗。例如,在某个光子Transformer加速器中,ADC/DAC电路占据了超过50%的芯片面积,并成为性能瓶颈。
如何在不大幅增加转换开销的前提下减少量化误差是持续的挑战:低比特转换器或共享ADC架构可优化面积与能耗,但可能影响模型精度。因此,找到最优的模拟量化方案或混合信号架构(例如使用数字校正少量值)对下一代光子LLM芯片至关重要。
缺乏原生非线性函数
光子硬件擅长执行线性运算(如通过干涉仪实现的矩阵-向量乘法),但在实现激活函数和非线性层方面历来缺乏高效手段。早期集成光子神经网络虽可进行快速矩阵乘法,但激活函数仍依赖电子电路。实践中,许多光子LLM加速器仍需转换至CMOS以实现softmax、GELU等点操作函数。
集成高效的片上非线性元件(如光学可饱和吸收器、电光调制器或纳米光子非线性元件),或开发最小化转换差距的混合光电计算流水线,是实现全光LLM推理的重要工程挑战。
光子注意力架构
目前的主要研究方向之一是将Transformer中的自注意力机制直接实现于光域中。这要求设计可调光学权重元件与可重构干涉仪网络,以光学方式计算Q×K及V加权和。例如,光子张量核(photonic tensor cores)正在开发中,利用马赫-曾德尔干涉仪(MZI)网格或其他交叉阵列实现大规模矩阵并行运算。可调权重可以通过相位调制器、微环调制器,甚至磁光存储单元来实现:有研究提出使用Ce:YIG谐振器存储多比特权重,从而实现片上非易失性光学权重存储。
此外,来自储备计算(Reservoir Computing)的基于延迟方案可提供时间上下文:长光延迟线或串联微环已展示出极高的序列记忆能力。未来构想是:实现一个全光Transformer模块,其中动态权重矩阵被编程进光学网格,过往token状态保存在延迟路径中,使自注意力机制得以光速运行。
最新设计如Lightening-Transformer(动态运行的光子张量核)与HyAtten验证了这一思路:它们实现了高度并行、全范围矩阵运算,同时最大限度减少了片外转换。持续推进集成光学缓存、高带宽调制器以及光学softmax逼近将推动该方向的发展。
类脑与脉冲光子LLM
另一条前沿路径是将LLM推理重构为类脑、事件驱动范式。SNN以稀疏的异步事件形式处理数据,天然契合光子的优势。事实上,已有基于相变神经元和激光脉冲的全光脉冲神经网络在芯片上实现。
人们设想可以将token流编码为光学脉冲,通过具有突触权重的光子SNN实现序列处理。混合光子-自旋电子设计在此可发挥作用:自旋电子器件(如磁隧道结、相变突触)可提供紧凑的非易失性权重存储,并可与光神经元接口。
近期关于磁光存储的光子片上权重研究、利用极端稀疏性的光子类脑加速器研究表明,在光子芯片中嵌入非线性、事件驱动组件是可行的。这类架构可利用数据稀疏性(大多数token仅弱激活网络),仅在事件发生时更新权重,从而显著降低能耗。
在光子类脑硬件上探索脉冲注意力模型或稀疏Transformer变种,是未来低功耗LLM推理的令人兴奋的发展方向。
系统集成与协同设计
最后,在光子平台上扩展LLM需跨层次的协同设计。这包括将光子处理器与先进的光学I/O和存储层次结构整合,以及从算法层面匹配硬件特性。例如,近期在商用代工厂制造的全集成光子DNN芯片展示了在芯片内全光完成神经网络计算的可能性。
将此类集成扩展到Transformer级别模型将需要密集的波分复用(WDM)、片上传输的光学网络架构(NoC)、以及新型封装(如共同封装光学)来提升吞吐量。同时,软件工具链(如量化、并行性、布局)也需适配光子硬件。
关于光电协同封装与存内计算架构的努力提供了路线图:通过将光子张量核与共置的内存和控制逻辑紧密耦合,可缓解冯·诺依曼架构带来的数据瓶颈。
从长远来看,成功可能来自“全球协同设计”——即将Transformer算法的稀疏性、低精度、模型分区等特性与非冯·诺依曼的光子芯片能力精确匹配。这些软硬件的协同创新将释放光计算在下一代LLM负载中的巨大并行潜能。
结论
光子学的进步正在推动计算技术的变革,其中光电器件与光子平台的集成处于前沿。这一集成催生了光子集成电路(PICs),它们作为超高速人工神经网络的构建模块,是新一代计算设备创建的关键。这些设备旨在应对机器学习和人工智能应用在医疗诊断、复杂语言处理、电信、高性能计算和沉浸式虚拟环境等多个领域中所带来的高强度计算需求。
尽管已有诸多进展,传统电子系统在速度、信号干扰和能效方面仍存在局限。神经形态光子技术以其超低延迟的特性,作为一种突破性解决方案出现,为人工智能和光神经网络(ONNs)的发展开辟了新的路径。本综述从光子工程和材料科学的角度出发,聚焦神经形态光子系统的最新发展,批判性地分析当前和预期面临的挑战,并描绘出克服这些障碍所需的科学与技术创新图谱。
文章重点介绍多种神经形态光子人工智能加速器,涵盖从经典光学到复杂的PIC设计的广泛技术领域。通过详细的对比分析,特别强调其在每瓦操作次数(operations per watt)方面的运行效率。讨论转向诸如垂直腔面发射激光器(VCSEL)/光子晶体面发射激光器(PCSEL)和基于频率微梳的加速器等专用技术,突出了在光子调制和波分复用方面的最新创新,以实现神经网络的高效训练与推理。
鉴于当前在实现每瓦千万亿次操作(PetaOPs/Watt)计算效率方面存在的技术瓶颈,本文探讨了提升这些关键性能指标的潜在策略,包括拓扑绝缘体与PCSELs等新兴技术,以及提升制造工艺、系统可扩展性与可靠性的手段。本文不仅描绘了当前的技术图景,也预测了神经形态光子技术在推动人工智能能力边界方面的未来发展路径。
总的来说,随着摩尔定律的终结以及光子版“摩尔定律”的起飞,我们预计将在PIC的成本、可扩展性、可集成性以及总体计算能力方面看到显著提升。PIC最终将取代IC,成为未来计算系统的核心支柱。
致谢本文作者:
Renjie Li、Wenjie Wei、Qi Xin、Xiaoli Liu、Sixuan Mao、Erik Ma 、Zijian Chen 、Malu Zhang、Haizhou Li、Zhaoyu Zhang
来源:半导体行业观察一点号