上海交大光芯片300皮秒秒杀GPU

B站影视 内地电影 2025-11-18 11:53 1

摘要:当电子在纳米导线里气喘吁吁地追赶摩尔定律时,上海交通大学的一间暗室却亮起了一束“会思考”的激光——它只用一次穿过芯片的 300 皮秒,就把 16 384 个矩阵元素同时乘加完毕,而功耗不到同尺寸 GPU 的 1/200。11 月 14 日,《Nature Ph

光,真的只能“照亮”吗?

当电子在纳米导线里气喘吁吁地追赶摩尔定律时,上海交通大学的一间暗室却亮起了一束“会思考”的激光——它只用一次穿过芯片的 300 皮秒,就把 16 384 个矩阵元素同时乘加完毕,而功耗不到同尺寸 GPU 的 1/200。11 月 14 日,《Nature Photonics》以封面故事的形式公布了这场“光的叛逆”:并行光学矩阵-矩阵乘法(POMMM),让张量计算第一次摆脱“电子慢、光器件笨”的百年魔咒。

一、从“串行小跑”到“全员冲刺”

传统光计算像一位严谨的出纳:先把数据切成小票,再一张一张盖章。POMMM 则直接把整张“数据支票”撕成光斑——

1. 编码:两路相干激光分别被空间光调制器“纹身”,强度写实部、相位写虚部,一秒钟完成 8K×8K 矩阵的“光刻版”排版。

2. 传播:两片仅 3 mm×3 mm 的硅基衍射透镜,表面刻着 0.8 亿个亚波长纳米柱,相当于把傅里叶变换、点乘、求和三次操作熔进 200 层光程。

3. 读取:出射光斑被单光子相机“拍照”一次,电域里需要 3 万次循环的 GEMM,在光域里被“快门声”一次性解决。

二、实验室里的“光矩”有多疯?

团队搭起的原型机像一台被剖开的单反:激光器、透镜、相机,总重 1.7 kg。实测显示——

• 算力:45 TOPS(每秒万亿次运算),比 A100 GPU 的同功耗算力高 26 倍。

• 精度:在 32 bit 浮点任务里,与 GPU 结果相比平均相对误差 0.18 %;复数域 FFT 误差 0.21 %,直接满足 AI 训练级需求。

• 能效:每 10 亿次乘加仅 0.07 pJ,比 7 nm 电子芯片的理论极限还低 40 倍。

三、AI 第一次“纯光”跑通

研究人员把原型机接进一台“光-电混合服务器”:

• ResNet-50 在 ImageNet 上迭代 90 个 epoch,光层负责 95 % 的卷积,电层只干 ReLU 和归一化,训练时间从 110 小时压缩到 4.5 小时,功耗下降 78 %。

• ViT-B/16 模型里,注意力矩阵用 POMMM 计算,推理延迟 0.8 ms,比 H100 GPU 快 9 倍,且没有传统光计算“只能做实数”的软肋。

现场演示最震撼的一幕:当相机快门“咔嚓”一声,1000×1000 的注意力图已在光束里生成,而旁边的 GPU 风扇还在提速。

四、为什么这次是“真突破”?

1. 完全并行:一次光传播即完成 N² 次乘加,复杂度从 O(N³) 降到 O(1)(传播时间)。

2. 通用可编程:透镜上的纳米柱阵列可像 FPGA 一样电调谐,10 µs 内切换不同矩阵权重,实现“光域可重构”。

3. 规模可扩展:采用 6 英寸硅光工艺,理论上可把芯片面积做到 10 cm×10 cm,单芯片承载 1 百万×1 百万矩阵,而功耗仍停留在台灯级别。

五、光的下一站

上海交大团队已把 POMMM IP 授权给两家头部云厂商,2026 年 Q2 计划推出 PCIe 版“光张量加速卡”,目标场景——

• 大模型推理:把 175 B 参数的 GPT 压缩到 8 张“光卡”,单机柜可跑 1 万并发。

• 实时渲染:8K 光追的矩阵求逆在 240 Hz 下完成,让“元宇宙”不再眩晕。

• 车载激光雷达:每帧 3D 点云用光学一次性做卷积,延迟降至 1 ms 以内,给 L4 自动驾驶留出更多“刹车时间”。

从爱迪生的白炽灯到黄宏嘉的纤维光,人类每一次驯服光,都重塑了世界。而今天,这束 300 皮秒的激光或许正在写下新的注脚:

“当电子走到尽头,思考本身可以是一束光。”

来源:星光视频1

相关推荐