摘要:人工智能尤其是深度学习和大模型的发展,正在对算力提出新的要求,有研究机构预测,未来算力需求将每4-6个月翻一倍,远快于摩尔定律的每18-24个月晶体管密度翻一倍。 与此同时,随着芯片制程逼近物理极限(2nm工艺的晶体管仅几十个原子宽),量子隧穿效应和制造成本暴
人工智能尤其是深度学习和大模型的发展,正在对算力提出新的要求,有研究机构预测,未来算力需求将每4-6个月翻一倍,远快于摩尔定律的每18-24个月晶体管密度翻一倍。 与此同时,随着芯片制程逼近物理极限(2nm工艺的晶体管仅几十个原子宽),量子隧穿效应和制造成本暴涨(3nm研发超200亿美元)让传统微缩难以为继,摩尔定律正在走向终结。 为了解决以上算力需求增长与传统芯片发展瓶颈间的矛盾,行业正积极探索多元路径,为算力突破开辟新的方向。 其中,传统的路线有两大方向,一种是通过近存计算和存内计算,也就是将存储单元放在计算逻辑芯片上方或者与计算逻辑芯片放在同一颗芯片内的方式,来解决存储和计算之间带宽和数据搬运的问题;另一种是通过架构创新,也就是把芯片上的晶体管进行重新排列,让AI产品重新定制计算核的形式,比如美国Sambanova公司的流式计算架构、谷歌TPU专用的ASIC架构,来解决晶体管的使用率问题。 然而,这并不能解决“绝对算力”问题,人们依旧会面临晶体管数量不足的困扰。 对此,曦智科技创始人兼首席执行官沈亦晨博士表示:“我们正在从光电混合计算的角度来进一步解决晶体管或者代替晶体管解决单位面积的绝对算力问题,这是一种更底层的技术突破。”
图 | 曦智科技创始人兼首席执行官沈亦晨博士;来源:与非网摄制
光电混合计算可将绝对算力提升3-5倍以上为什么光电混合计算可以突破晶体管的限制? 对此,沈亦晨解释道:“这是因为对于光来讲,不论以何种主频,1GHz、10GHz还是100GHz,在光纤里面或者在芯片上的波导中传播时,它都不会产生热量。基于此,我们可以通过提高它的主频,或者提高波分复用的波长数量,来进一步增加单位面积的绝对算力。” “此外,近存计算架构或者流式架构同样可以在光电混合计算芯片上来实现,换言之,光电混合也可以做近存计算或AI流式计算。” 沈亦晨补充道。 提到光电混合计算,曦智科技作为该方向的提出者,当前不管是从底层创新还是商业落地,在全球都是走的最快的。 但是曦智科技并没有讲“比电快1万倍、10万倍的故事”,而是 非常朴实地表示,当前基于曦智科技的光电混合计算硬件,可以在特定场景下实现比电计算性能高3倍、5倍以上的提升。图 | 曦智科技提出了EOPP的概念;来源:与非网摄制
为了更好地理解当前光电混合计算的算力情况,曦智科技联合创始人、首席技术官孟怀宇博士还提出了EOPP(Effective Optical Processing Power)的概念,从而将光计算的峰值算力、计算精度、矩阵可编程能力以及刷新频率等纳入光电混合计算能力的综合评价体系中去。
图 | 曦智科技联合创始人、首席技术官孟怀宇博士;来源:与非网摄制
曦智科技发布最新款光电混合计算卡产品——曦智天枢2021年12月,曦智科技首次对外发布光电混合计算产品,成功验证了光电混合计算在特定算法下,相较于主流GPU数百倍的速度优势。 就在近日,曦智科技发布了全球首款实现商业化落地的可编程光电混合计算卡——曦智天枢,其核心突破在于采用3D先进封装技术(TSV+FlipChip)将128×128光学矩阵乘法器与电学专用集成电路异构集成。光学处理单元(OPU)通过光的并行特性实现矩阵运算,主频1GHz下延迟仅200ps,而电芯片(ASIC)负责逻辑控制与精度校准,两者协同将输出精度提升至8bit,满足ResNet50等商用AI模型的推理需求。图 | 曦智科技光电混合计算卡“曦智天枢”;来源:曦智科技
相较上一代产品,曦智天枢的光子器件数量、芯片面积及矩阵规模均提升4倍,等效光算力(EOPP)达84,标志着光计算从实验室走向产业化的关键一步。 在软件方面,曦智天枢搭载了曦智光电混合计算软件栈,其算子库包含RVV(RiscV Vector)算子,电矩阵(dMAC)加速算子,光矩阵(oMAC)加速算子, 支持CV类和LLM类模型,以及non-AI算子,如Ising,LineSolver等。用户借助曦智编译器,可以灵活地运用这些算子来构建高效的应用模型。此外,平台还支持用户自定义算子,通过OpenCL C/C++语言进行编译和优化,进一步扩展了算法开发的灵活性。 曦智科技的软件栈与主流框架如Pytorch和ONNX深度集成,客户可以通过软件栈直接使用曦智天枢的光矩阵和电矩阵加速单元对模型和算法进行加速和验证,也可以将模型通过曦智编译框架编译部署在端侧进行推理。通过软件栈,天枢成功运行了深度卷积神经网络模型ResNet50及AI大语言模型LlaMA 2,首次实现了光电混合计算在商业化场景中的应用。 在实际应用中,根据北京大学常林教授团队的实测数据显示,天枢在医学图像分割(512×512分辨率)任务中,光加速占比75%,准确率媲美高端GPU;在毫米波雷达信号处理中,其纳秒级延迟显著提升实时性,验证了光电协同校正技术的有效性。
写在最后:曦智天枢就像是"特斯拉Roadster" 关于光电混合计算的未来,曦智科技CEO沈亦晨指出,曦智天枢的发布类比"特斯拉Roadster",标志着光计算首次以商业化产品形态突破电算力边界。 根据Yole预测,2030年光电混合计算市场规模将超百亿美元,而曦智天枢的技术路径——通过波分复用(当前为单波长,可做到8波长/16波长复用)和主频提升(当前1GHz vs. 光通信100GHz潜力)仍具3个数量级的算力扩展空间。 当然,曦智天枢的价值不仅在于性能参数,更在于其构建了光电混合计算的技术范式:以光突破晶体管密度限制,以电弥补光计算通用性短板。 随着下一代产品(256×256光子矩阵)的研发推进,曦智科技正推动算力产业从"硅基微缩"转向"光-电协同"的新赛道,这一创新或将重塑AI基础设施的竞争格局。来源:与非网