北京大学研究团队突破模拟计算精度极限:让矩阵运算快过超级计算机千倍

B站影视 电影资讯 2025-10-27 17:43 1

摘要:与最先进的数字处理器相比,这套系统展现出了压倒性的优势。研究团队将其与英伟达H100 GPU、AMD Vega 20 GPU以及专门设计用于128×8 MIMO信号处理的ASIC芯片进行了对比。在32×32的矩阵规模下,HP-INV的等效吞吐量已经超越了所有数

在数学的世界里,解方程组就像解开一个复杂的谜题。当你面对一堆相互关联的未知数时,传统计算机需要一步步地计算,就像一个人在黑暗中摸索着寻找出路。然而,北京大学的研究团队最近在《Nature Electronics》期刊上发表了一项突破性研究,他们开发出一种基于电阻式随机存取存储器(RRAM)的模拟计算系统,能够以前所未有的精度和速度解决矩阵方程问题。与最先进的数字处理器相比,这套系统展现出了压倒性的优势。研究团队将其与英伟达H100 GPU、AMD Vega 20 GPU以及专门设计用于128×8 MIMO信号处理的ASIC芯片进行了对比。在32×32的矩阵规模下,HP-INV的等效吞吐量已经超越了所有数字处理器。在128×128的规模下,即使使用了BlockAMC带来的额外开销,系统的吞吐量仍然比数字处理器高10倍,能效高3-5倍。如果未来能够开发出响应时间更快的运算放大器(将INV响应时间降到20纳秒,MVM降到10纳秒),系统性能还能再提升4倍。在最理想的情况下,模拟计算可以实现比数字处理器高1000倍的吞吐量和近100倍的能效。这就像从步行升级到高铁,不仅速度快了,每公里的能耗反而更低。研究团队还评估了导线电阻对系统性能的影响。通过仿真发现,即使在128×128的大规模阵列中,导线电阻(约1.73欧姆)对收敛速度的影响也很小,证明了系统的鲁棒性。此外,通过"确认"操作可以验证所有器件处于正确状态,如果发现缺陷可以用并行冗余阵列替代,进一步提高了系统的可靠性。技术细节背后的创新这项研究的成功离不开多项技术创新的支撑。首先是RRAM芯片的制造工艺。团队使用商用40纳米CMOS工艺平台,在M4和M5金属层之间嵌入了基于氧化钽(TaOx)的RRAM阵列。这种1T1R(一个晶体管配一个电阻)的结构确保了对每个存储单元的精确控制。通过写入验证方法,器件可以可靠地编程到8个电导状态(0.5-35微西门子),具有足够的读出裕度。其次是巧妙的编码方案。最低的电导状态通过强复位获得,代表数值零。为了避免依赖强复位,还可以引入一个额外的高电导状态,使用差分编码方案覆盖-7到+7的范围。这种标准的AMC方法特别适合实值矩阵向量乘法。整个系统的控制也经过精心设计。LP-INV电路板包含8×8 RRAM阵列、运算放大器、模拟开关、多路复用器、DAC和ADC。HP-MVM则是一个完全集成的芯片,包含1Mb RRAM阵列、跨阻放大器、ADC、模拟开关、多路复用器和寄存器。所有这些组件通过个人电脑协调工作,实现了从硬件到算法的完美配合。至顶AI实验室洞见这项研究为模拟计算开辟了新的道路。通过将低精度模拟运算与迭代优化相结合,团队成功突破了模拟计算长期存在的精度瓶颈。BlockAMC算法的引入使得系统能够处理实际应用所需的大规模矩阵。在大规模MIMO通信系统中的成功应用更是证明了这种方法的实用价值。随着技术的进一步发展,基于RRAM的模拟计算有望在科学计算、人工智能训练、信号处理等领域发挥越来越重要的作用,为后摩尔时代的计算架构提供新的可能。论文地址:https://www.nature.com/articles/s41928-025-01477-0END本文来自至顶AI实验室,一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。Q&AQ1:RRAM芯片在矩阵运算中是如何工作的?A:RRAM芯片中的每个存储单元代表矩阵的一个元素,其电导值对应元素的数值。当电流通过阵列时,根据欧姆定律和基尔霍夫定律自然完成矩阵运算,就像水流过管道系统会自动分流。通过添加运算放大器形成闭环反馈,可以在一步内完成矩阵求逆,无需像传统计算机那样反复迭代计算。Q2:北京大学团队的模拟计算系统相比传统数字处理器有多大优势?A:在128×128矩阵规模下,该系统的吞吐量比英伟达H100 GPU等数字处理器高10倍,能效高3-5倍。如果采用更快的运算放大器,理论上可实现比数字处理器高1000倍的吞吐量和近100倍的能效。在大规模MIMO通信测试中,仅需2-3个迭代周期就能达到与32位浮点数字处理器相同的性能。Q3:BlockAMC算法是如何让系统处理大规模矩阵的?A:BlockAMC将大矩阵分割成多个小块,每个小块在不同的RRAM阵列上独立处理,最后组合结果。这就像搭积木,通过合理组合小模块来构建大系统。对于复数矩阵,可以展开成实部和虚部分别处理。实验中成功解决了16×16实数矩阵求逆,达到24位定点精度。模型时代 · 目录上一篇上海AI实验室推出InternVLA-M1:让机器人像人类一样理解空间并精准执行任务原标题:《北京大学研究团队突破模拟计算精度极限:让矩阵运算快过超级计算机千倍》

来源:视界科技

相关推荐