摘要:伴随ChatGPT、DeepSeek为代表的人工智能革命性成果的诞生,冯·诺依曼瓶颈、摩尔定律放缓、“功耗墙”等问题日益显著,算力越来越难以追赶AI的增长速度。因此,市场开始瞄向光计算这一领域。
伴随ChatGPT、DeepSeek为代表的人工智能革命性成果的诞生,冯·诺依曼瓶颈、摩尔定律放缓、“功耗墙”等问题日益显著,算力越来越难以追赶AI的增长速度。因此,市场开始瞄向光计算这一领域。
在多数媒体宣传中,普遍将光计算描绘为比GPU高1000倍以上的一种技术。光子作为信息载体确实具有独特的优势,有实现千倍算力提升的潜力,但显然这并非触手可及。在这种情况下,如何突破现有算力生态的瓶颈,真正把光的“能量”带到产业中去,才是企业当下需要考虑的问题。
作为光电混合算力产业化的先行者,曦智科技在2021年12月推出的第二代高性能光子计算处理器PACE开创性地实现了光芯片与电芯片的融合,首次提出'光电混合算力新范式'。当时PACE实现了64×64光学矩阵的突破,如今公司再次实现技术跨越,正式发布搭载128×128可编程光学矩阵的新一代产品——曦智天枢,并首次实现商业场景中的应用。这或许不是能带来指数级性能飞跃的产品,但确实是一个当下即可落地,实现单位算力能耗快速提升的实用解决方案。
当光和电碰撞在一起
“对曦智科技来说,光子计算产品是两大核心产品线之一,也是引领算力进一步突破的‘光电混合算力新范式’,因为其中既有光子芯片,又有电子芯片。”曦智科技创始人兼首席执行官沈亦晨博士解释道,这种范式既保留了光计算在延迟、能耗效率上的先天优势(计算过程理论上零能耗),又通过电子芯片实现了与现有计算生态的无缝对接,把光和电的优势发挥到极致。
在沈亦晨看来,未来十年,人工智能是最重要的一件事。过去两三年,人工智能发展让模型急剧变大,随之而来的就是4~6个月翻倍一次的算力需求。过去几十年,算力一直由数字芯片来提供,随着摩尔定律的在7nm以后迭代速度放缓,算力提供越来越难,如果此时没有一个好的解决方案最后人工智能发展会被算力所限制。
目前,突破算力限制有两条创新路线:第一条是存算一体路线,本质有近存计算和存内计算两类方式,通过将存储单元放在计算逻辑芯片上,解决存储与计算之间带宽和数据搬运的问题;第二是通过非GPU架构,如美国Sambanova的流式计算架构、谷歌TPU专用的ASIC架构,通过将芯片上的晶体管重新排列,提高晶体管在计算时的利用率。
很显然,两种路线都不能解决数字芯片最根本的晶体管数量问题。并不是说两条路线不好,而是未来两条路线最终一定还会绕回晶体管密度这个问题上。所以,通过将光子和电子混合在一起,就能解决这根本性的问题。与此同时,近存计算或流式架构同样适用于光电混合计算芯片上,从而实现更大的底层突破。
为什么加入了光芯片就能突破这样的问题?沈亦晨分析道,之所以晶体管很难进一步提高单位面积的绝对计算密度,是因为登纳德缩放比例失效,如果把晶体管继续做小会产生量子极限的隧穿效应,而如果以两倍的主频运行会同时带来两倍的热量,单位面积芯片如果不能把这些热量散发出去就会导致芯片融化。这两个问题的本质都在于铜导线存在电阻,晶体管收放电都会产生热量,而光则不会产生热量,因此可以通过提高其主频或复用波长数量进一步增加单位面积的绝对算力。
细分到光计算,也有许多路线,包括MZI干涉结构、MRM波分结构、亚波长衍射结构等。曦智科技选择了MZI路线,它最大的有点是成熟、可以量产、并且比较稳定;在调试天枢时,曦智科技发现MRM这个工艺的稳定性和成熟度还不是很好;衍射方的优点在于功耗可以更低,但它可能会牺牲可编程性。总之,过去三年MZI是落地最快的一个场景,曦智一定会在在器件稳定性足够的情况下,才会引入到产品中去。
不过,需要强调的是,目前曦智光子计算技术主要用于解决一部分矩阵计算、低精度矩阵计算问题,还没有解决用光做高速读取存储功能。在曦智的计算架构中,光芯片与电芯片以一种完全原创的新型架构实现,3D堆叠在一起做紧密的配合。
“曦智天枢的问世让我感觉自豪,因为在这个赛道上,曦智科技应该是全世界走得最快的,是整个方向的提出者。我从2016年博士毕业,发表论文一步步从实验室项目变成产品化的形态,还是怀有一定个人感情的。”沈亦晨感叹道。
性能全面提升4倍的天枢
根据曦智科技联合创始人、首席技术官孟怀宇博士的介绍,天枢光电混合计算卡是标准全高全长的PCle计算卡,核心部分光电混合芯片的封装尺寸仅50×50mm。该计算卡是全球首次实现能够支持真正商用复杂AI算法的光计算卡,特别是ResNet50。
具体来说,天枢具备几大特点:大矩阵(128x128光子矩阵)、大带宽(80Tbps)、大面积(600mm²光子芯片面积)、高集成(40000+光子器件数量)、低时延(某些算法下的计算延迟30倍相对电芯片的速度提升)。
目前,在电芯片领域,我们时常使用TOPS之类的单位来衡量整体的算力,但在光计算领域,似乎缺少一些计量单位。另外,在光计算领域,每家厂商的技术路线不尽相同,导致大家对于光计算算力的口径不同。为此,孟怀宇在发布会上提出等效光算力(EOPP,Effective Optical Processing Power)这样一个全新的指标,计算公式为:
EOPP=峰值算力(TOPS)x2输出精度x权重刷新速率(GHz)
光计算作为一种模拟计算,在输出精度与算法灵活性之间需要权衡。为此曦智科技构建了包含输出精度、权重刷新频率等关键指标的综合评估体系,通过多参数相乘得出更具实际参考价值的性能指标,而非仅关注峰值算力。基于该体系,可以计算出天枢的EOPP:
天枢EOPP =32.77x28x0.01=84
是曦智上一代产品等效光算力的4倍。此外,与上一代产品相比,天枢的光计算矩阵从64x64提升至128x128;芯片面积从150mm²提升至600mm²,均是上一代光芯片的4倍。
之所以能够获得4倍性能提升,在于天枢在底层上技术创新:
第一是光芯片和电芯片的提升。较上一代产品,天枢在处理器方面进行了升级,采用“OPU光学处理单元+ASIC光电混合处理器”。成功突破了传统电子处理器在速度和能耗方面的局限,还显著提升了光计算的精度。其中,光芯片主要进行整数运算,电芯片负责浮点运算。第二是封装上的提升。天枢是全球首次在600mm²面积上实现3D堆叠的案例,同时采用Flip-chip(倒装)+ TSV(通孔)先进封装工艺。通过TSV,显著缩短电流路径,降低传输延时;减少电阻和电感,降低电压,提升散热能力;提高光电芯片的互连密度,节省了芯片面积;大幅提高了PCIe等高速信号接口的信号完整性(SI) 性能,减少了信号衰减和串扰,使得数据传输更加准确可靠。通过Flip-chip直接将芯片的有源面朝下安装在基板或另一芯片上,极大地提高了光电芯片间的互连密度,减少了互连线长度,从而降低了信号延迟并增强了数据传输速度。在软件层面,曦智科技同样构建了完整的开发工具链以实现光计算芯片的实用化。为了让ResNet50等复杂算法能够便捷部署,曦智开发了兼容PyTorch等主流AI框架的编译器,并自主研发了底层驱动和硬件模拟器——这个模拟器尤为关键,它能准确反映光芯片的实际性能(包括器件不完美特性),帮助开发者在部署前验证算法精度,避免因模拟计算特性导致的精度损失。
在产品定位上,天枢定位为'Roadster'级产品,主打低延迟场景和科研市场。在矩阵运算延迟上优于数字芯片,适合金融、科学计算等特定领域。下一代将重点发展大模型推理,通过光互连技术提升存储带宽。
AI发展的新范式
需要强调的是,曦智所提出的并非一个概念,产品也并非比拼纸面数据的“空中楼阁”,而是已经真正进入渗入到千行百业之中。目前,曦智的产品已应用于EDA优化、量化交易和银行安全识别。为构建更广阔的生态,曦智正通过光电设计竞赛、高校合作及百万级联合项目,推动开发者社区建设。就像英伟达培育CUDA生态那样,致力于让更多研究者能够基于光电混合计算开发创新应用。
发布会现场,北京大学电子学院博雅青年学者、助理教授、博士生导师常林也分享了自己实际使用后的感受。他见证了曦智科技从实验室突破到商用产品的全过程,同时他的团队率先使用了曦智第一代光电混合计算卡,在自动驾驶和医疗影像领域取得显著成果。在雷达成像方面,该加速卡处理5000×5000复数矩阵时,通过光电协同将精度提升至8bit,误差小于5%,计算加速超70%。在新冠CT图像分割应用中,512×512医学图像处理加速超75%,准确率媲美高端GPU。
常林强调,曦智第一代产品确实有超出预期的性能,这款产品成功解决了光计算在规模和精度上的关键瓶颈。随着矩阵规模扩大和接口优化,光电混合计算有望像GPU一样实现'即插即用',为AI发展提供新范式。
对于下一代产品,曦智规划明年底完成的256x256光子矩阵产品样片,2027年正式发布,预期将会在算力方面实现数量级的提升。
另外,对于未来,沈亦晨表示,当前光通信商用8×16波长,主频50~100GHz,也就是说对光计算来说尚有3个数量级提升空间,曦智科技将优先通过增加器件数量和缩小尺寸提升算力。目前,天枢芯片已用满600mm²面积,下一步将攻关主频、波长数量及新材料(如铌酸锂)应用,暂不触及物理波长极限。双波长验证项目目前已在内部验证中。
来源:电子工程世界一点号