AydoganOzcan团队Nature|光学生成模型

B站影视 日本电影 2025-09-12 19:40 1

摘要:大规模生成式AI(从扩散到多模态大模型)在图像、语言、分子设计等领域迅速突破,但随之而来的算力、能耗与时延压力愈发突出:更大的模型、更长的推理时间、更高的碳足迹,成为“规模化落地”的核心掣肘。同时,现有“光学计算”多集中在感知、滤波与分类等任务,从随机噪声直接

导 读

大规模生成式AI(从扩散到多模态大模型)在图像、语言、分子设计等领域迅速突破,但随之而来的算力、能耗与时延压力愈发突出:更大的模型、更长的推理时间、更高的碳足迹,成为“规模化落地”的核心掣肘。同时,现有“光学计算”多集中在感知、滤波与分类等任务,从随机噪声直接“创造”图像的“生成式”能力仍缺少高效的物理实现路径。

近日, UCLA的Aydogan Ozcan团队 提出的 光学生成模型 (Optical Generative Models)给出了一种全新解法:使用数字编码器将二维高斯噪声快速映射为相位分布,作为“光学生成种子”;随后在自由空间中,经由可重构衍射解码器进行全光处理,一次快照即可合成符合目标数据分布、但从未出现过的图像。除照明功率与数字编码外,合成过程几乎不消耗电子计算,生成的物理瓶颈仅由 SLM 的刷新率决定(光在衍射解码器中的传播

该成果发表于 Nature ,题为 Optical generative models 作者:陈世锜博士(第一作者),李煜航,王云天,陈瀚珑,Aydogan Ozcan教授(通讯作者)。 本工作的完成单位为UCLA ECE、Bioengineering、CNSI。

小百科:什么是“光学生成模型”?

光学生成模型是一种“光—电混合”的生成式AI框架:电侧用浅层数字网络把随机噪声编码成相位种子;光侧通过固定(或按任务重构)的衍射解码器在自由空间传播中完成生成计算;最终直接在模拟域生成图像。核心思想是把部分生成能力转移到光传播中,从而在推理时实现低能耗、可扩展的模拟域生成。

1 设计思路和工作原理

快照式光学生成模型(如 图1 所示):训练采用类似“教师-学生”进行知识蒸馏的方式,使用数字DDPM持续生成“噪声-图像”数据对,联合优化数字编码器与衍射解码器。训练后解码器对每个任务固定,种子可随机访问以合成无穷多样本。在推理过程中,随机二维噪声→数字编码器→相位种子(SLM加载)→固定衍射解码器→传感器记录生成图像;传播时间

图1: 快照式光学生成模型

图源: Nature 644, 903–911 (2025)

除快照式光学生成模型外,作者还提出迭代式光学生成模型 (如 图2 所示):把扩散模型的多步去噪过程“移植”到光学域。系统在多波长通道下多次加载相位,逐步将带噪样本逼近目标分布;与快照式相比,迭代式在生成多样性指标与背景干净度上进一步提升,且不易出现模式坍缩;甚至可在不使用数字编码器时仍生成多样人脸图像(但性能与多样性有所下降)。

图2: 迭代式光学生成模型

2 实验系统与验证

实验验证系统(如 图3 ):通过激光照明,SLM显示经过数字编码器编码的相位种子,另一块 SLM 充当固定解码器;经分光与成像后由传感器记录输出强度。实验结果给出单色MNIST 与 Fashion-MNIST的实拍样例,证明快照式光学生成模型的可行性与多样性。

图3:光学生成模型实验系统与验证

更高分辨率与多色生成:为了证明光学生成模型的可扩展性,UCLA的研究团队将生成的数据分布扩展到高分辨率的梵高艺术品。作者将复杂扩散模型的知识蒸馏到快照式光学生成模型中后,在相同的实验验证系统中分别验证了高分辨率单色与RGB(多色可见光顺序照明)的数值与实拍结果,展示了与教师模型一致的生成、以及可创造出差异化内容的能力(如 图4-5 所示)

图4:单色梵高艺术品光学生成仿真与实验验证

图5:多色梵高艺术品光学生成仿真与实验验证

3 挑战以及未来展望

物理限制与鲁棒性:器件相位位深、系统对准与缺陷等会影响生成质量。把这些约束显式纳入训练可提升实验效率;对于简单的生成任务,低比特位深的简化解码器亦可工作,为未来用被动纳米结构(双光子聚合/光刻)替代可编程器件、实现更紧凑/低成本的本地光学生成模型打开了空间。

速度与规模:推理速度主要受 SLM 刷新率限制,可通过高速调制器与并行架构提升;光学生成模型还有可能进行空间/光谱复用实现多通道并行生成,乃至扩展到三维体数据生成,面向AR/VR、边缘AI、娱乐等应用。

能效与生态:在保持图像质量的同时优化衍射效率与光学链路的信噪比,结合不同任务的解码器切换与种子云端分发,有望打造低能耗、可移植的AIGC物理引擎。

来源:东窗史谈一点号

相关推荐