北大团队重磅研究登Nature!新型芯片算力超顶级GPU 1000倍,能效提升100倍

B站影视 欧美电影 2025-10-20 21:10 2

摘要:北京大学集成电路学院孙仲教授联合黄如院士、蔡一茂教授和王宗巍助理研究员,提出了一种高精度、可扩展的模拟矩阵方程求解方案。

北京大学集成电路学院孙仲教授联合黄如院士、蔡一茂教授和王宗巍助理研究员,提出了一种高精度、可扩展的模拟矩阵方程求解方案。

研究显示,该方案在信号检测任务中仅需三次迭代即可达到FP32级别性能,吞吐率可提升1000倍,能效提升100倍,为未来类脑模拟计算与6G通信处理器开辟了全新路线。

该研究10月13日登上国际顶级期刊《Nature Electronics》。

算力的“墙”撞不动了

今天的AI大模型,算力需求的胃口几乎是指数级增长。

这种增长势头,让传统的计算架构力不从心,性能天花板逐渐到顶。

问题的根子,出在矩阵计算上。

矩阵计算,是解线性方程的核心,也是信号处理、科学计算和神经网络训练的基石。在科学计算里,很多复杂的微分方程,最终都得变成解矩阵方程。

用数字计算机来解,精度是高,但代价极大。

计算的复杂度通常是O(N³),N是矩阵的大小。矩阵稍微大一点,计算量就疯涨。面对今天海量的数据应用,数字计算机越来越吃力,何况芯片器件的缩放也快到头了。

更要命的是我们现在用的电脑,几乎都遵循着冯·诺依曼架构。

这个架构计算单元和存储单元是分开的。处理器要算数据,得先从内存里把数据搬过来,算完了再搬回去。

在数据密集型计算里,“冯诺依曼瓶颈”被无限放大,严重拖累了性能和效率。

有人就把目光投向了模拟计算。

模拟计算,一种古老而优雅的计算方式。它不像数字计算那样用0和1来抽象世界,而是直接用物理世界的连续变化来模拟计算过程。

把阻变存储器(RRAM)阵列看作一个物理矩阵,每个存储单元的电导值,直接对应矩阵里的一个元素。矩阵和向量的乘法运算,在物理定律(比如欧姆定律和基尔霍夫定律)的支配下,瞬间就能完成。

理论上,这能把计算复杂度从O(N³)一下子拉低。

但是,模拟计算有个致命伤:精度太低,而且很难扩展。这也是为什么很早之前就被高精度、可编程的数字计算淘汰。

北京大学人工智能研究院的孙仲研究员说,怎么让模拟计算精度高起来,又能扩展,发挥它天生的速度和能效优势,这是困扰全世界科学界的“世纪难题”。

打通模拟计算的任督二脉

面对这个难题,北大团队没有头铁硬上,而是巧妙地打出了一套组合拳。

他们把“新型信息器件”、“原创电路”和“经典算法”撮合到了一起,搞出了一个全模拟的矩阵方程求解器。

这个求解器的核心思路,是把一个复杂的求解任务,拆解成两个部分,让两个“专科医生”协同作战。

这两个“医生”分别是:模拟低精度矩阵求逆(LP-INV)和模拟高精度矩阵-向量乘法(HP-MVM)。

你可以这么理解:

在求解一个复杂的矩阵方程Ax=b时,先让“低精度求逆”电路(LP-INV)这个医生,快速给出一个大概的、粗糙的解。它像个草稿画师,三下五除二就勾勒出轮廓。

然后,再让“高精度乘法”电路(HP-MVM)这个医生上场,用一个精确的矩阵A副本,去校验和修正前面那个粗糙的解,不断迭代,把误差一点点减小。它像个精修画师,在草稿的基础上不断打磨细节,直到画面完美。

整个过程,从粗到精,都在模拟域里完成。

这种设计最妙的地方在于,它承认了模拟计算在直接求逆时精度不高的事实,但又聪明地利用了它速度快的优点来做近似和迭代,再用另一个精度可控的模拟乘法来“兜底”,确保最终结果的精确。

为了让这个方案落地,团队还用了一个叫“逐位切片”(bit-slicing)的策略。

阻变存储器这种器件,想让它精确地存储一个高精度数值是很难的。那就换个思路,一口吃不成胖子,就分几口吃。

他们把一个高精度的浮点矩阵A,切分成好几个低精度的定点矩阵。在实验里,他们把精度设定为3比特(3-bit),也就是每个存储单元只需要在8个电导状态之间切换。

A = 2⁰A₀ + 2ᵐA₂ + ⋯ + 2⁽ⁿ⁻¹⁾ᵐAₙ₋₁

这样一来,对硬件的要求大大降低,映射的复杂性也下来了。计算的时候,再把这几个低精度矩阵的计算结果累加起来,就还原出了高精度的最终解。

解决了精度,下一个问题是规模。一块芯片再大也有限,怎么解决超大规模的矩阵问题?

答案是“块矩阵模拟计算”(BlockAMC)。

方法就是把一个大矩阵,像切豆腐一样切成很多小块,然后把这些小块分发给不同的芯片阵列去协同处理。这样,无论矩阵有多大,理论上都可以通过增加芯片数量来解决,扩展性问题迎刃而解。

从理论走进现实

这套漂亮的架构,最终要落在实打实的硬件上。

团队设计和流片了两款基于氧化钽(TaOx)的阻变存储器芯片,都是在商业化的40纳米互补金属氧化物半导体(CMOS)工艺平台上制造的。

一款是1兆位(1 Mb)的大阵列,专门负责高精度乘法(HP-MVM)。

另一款是8×8的小阵列,用来构成低精度求逆电路(LP-INV)。

每个存储单元都是“一个晶体管-一个电阻”(1T1R)的经典结构,可以在8个不同的电导状态之间切换,正好对应前面说的3比特精度。

值得一提的是,这些芯片的制造工艺完全兼容标准的CMOS后端流程,没有用什么稀有或者偏门的材料。这意味着,如果未来要量产,可以直接利用现有的成熟芯片生产线,成本和难度都得到了很好的控制。

为了把数据精准地写入这些存储单元,团队还用了一种叫“写入-验证”(write-verify)的编程方法。

这个方法分两步走:粗调和细调。

第一步粗调,用一个脉冲电压,快速把单元的电导值调节到目标范围附近。

第二步细调,在这个小范围内,用更精细的步长慢慢微调,直到电导值不多不少,正好落在目标上。整个过程还是自适应控制的,系统会根据上一次的写入情况,动态调整下一次的微调力度。

精细,实在是精细。

性能怎么样?数据说话

实验结果显示,这块芯片的综合性能非常惊人。

精度上,通过和块矩阵算法结合,团队成功实现了16×16矩阵的24比特定点数精度求逆。这已经和数字计算机里常用的32位浮点数(FP32)精度在一个水平线上了。

经过10次迭代后,矩阵方程求解的相对误差可以低到10⁻⁷这个量级。这意味着,模拟计算在精度上,第一次追平了数字计算。

速度和能效上,更是展现了碾压级的优势。

实验显示,模拟求逆电路(LP-INV)在120纳秒内完成收敛,矩阵乘法(MVM)响应时间仅约60纳秒。

对于32×32规模矩阵,模拟方案的吞吐率超越GPU与ASIC芯片,在128×128规模下仍保持约10倍性能优势。

综合评估表明,若在未来采用高带宽放大器(GBWP=500 MHz)优化电路,其理论能效可提升至现有数字芯片的100倍以上,吞吐率提升达1000倍。

前景无可限量

团队把这块芯片用到了一个非常重要且困难的场景:大规模多输入多输出(Massive MIMO)系统的信号检测。

这是未来5G-A和6G通信的核心技术。简单说,就是基站那边装一大堆天线,用户手机这边只有少量天线,以此来大幅提升通信的容量和质量。

挑战在于,基站要从混杂的信号里,准确地分离出每个用户的数据,这个过程涉及到极其复杂的矩阵求逆运算,而且要求实时、低功耗。

团队做了一个实验。

他们在一个模拟的16×4 MIMO系统里,传输一幅100×100像素的二值图像,内容是“北京大学校徽”。图像数据经过256-QAM调制编码后发送出去。

在接收端,用他们研制的模拟计算芯片进行信号恢复。

结果怎么样?

只进行了两次迭代,恢复出来的图像,已经和原图一模一样,肉眼看不出任何差别。

他们进一步对644个随机生成的信号点进行检测,所有符号都被正确识别,一个错误都没有。

在更复杂、也更接近实际的128×8 MIMO系统下,这套模拟计算方案,仅仅用了三次迭代,就达到了和32位浮点精度数字处理器完全相同的误码率(BER)性能。

这意味着,它可以用比数字方案低数百倍的能耗,完成同样质量的通信信号处理。这为未来6G基站的信号处理芯片,提供了一条极具吸引力的技术路线。

未来,不止于加速

这项工作的价值,远不止于造出了一块性能优越的芯片。

它用实验结果证明了一件事:模拟计算,这条几乎被遗忘的技术路线,完全有能力以极高的效率和精度,去解决现代科学和工程领域最核心的计算问题。

这为算力的发展,探索出了一条全新的、极具潜力的道路。

未来的想象空间很大。

在6G通信领域,基站可以更从容地处理海量信号,网络容量和能效将迎来飞跃。

在人工智能领域,大模型训练中那些计算量巨大的二阶优化算法,有望得到极大的加速,从而缩短训练时间,降低成本。

它极低的功耗特性,使得在手机、手表、耳机这类终端设备上直接运行复杂的AI模型和信号处理成为可能。这将大大降低对云端计算的依赖,真正推动边缘计算迈向一个新的阶段。

研究团队表示,他们的下一步,是把模拟求逆和矩阵乘法两个模块,真正集成到一块芯片上,进一步提升系统的规模和稳定性。同时,通过优化外围电路,有望把响应时间压缩到20纳秒级别。

过去,模拟计算在数字计算的体系里,最多只能扮演一个“加速器”的角色,在一些特定任务上打打辅助。

但现在,它第一次在精度上赶上了数字计算,同时在能效和速度上实现了巨大超越。

北大团队这项创新性模拟计算研究,或将是通往一个算力无处不在、且绿色高效新时代的钥匙。

参考资料:

来源:算泥社区

相关推荐