摘要:别觉得这是啥冷门实验室成果,这东西要是落地,以后自动驾驶、医疗传感器这些设备,可能就不用再依赖云端,自己当场就能处理数据、更新模型,而且还特省电。
9月28日在《自然-电子学》上看到个挺炸裂的技术新闻——一群法国科学家搞出了首个能支持AI在芯片上同时学习和推理的混合内存技术。
别觉得这是啥冷门实验室成果,这东西要是落地,以后自动驾驶、医疗传感器这些设备,可能就不用再依赖云端,自己当场就能处理数据、更新模型,而且还特省电。
先跟大家掰扯清楚,这事儿为啥重要,咱们现在用的AI,不管是手机里的语音助手,还是工厂里的监控系统,大多是“边缘推理+云端训练”的模式。
简单说就是,设备本身只能做简单的“判断”(比如识别一张照片是不是猫),要是想让它学新东西(比如识别更多品种的猫),就得把数据传到云端,让大服务器算完再把更新好的模型发回来。
但这么干有两个大问题:一是慢,遇到自动驾驶要实时识别突发状况、医疗传感器要立刻分析病人数据这种场景,等云端来回传数据,可能早就误事了。
二是费电,数据传输过程中消耗的能量,比设备本身干活还多,对于靠电池供电的边缘设备来说,这简直是噩梦。
为啥之前解决不了这个问题?核心卡在内存上。
AI要干活,得有地方存“知识”(也就是模型权重),还得能随时更新这些“知识”。
但过去的存储技术,就像偏科严重的学生——要么擅长“记东西”(推理),要么擅长“改东西”(学习),没法两者兼顾。
具体说两种主流技术:一种是忆阻器,这东西特别适合推理,它能存模拟权重,读取数据时又快又省电,还能直接在内存里算账(存内计算),不用把数据来回搬到处理器里,效率很高。
但它有个致命缺点:学新东西特别难,AI学习需要一点点调整权重,忆阻器精度不够,调不出那么精细的变化,相当于想改笔记却只能用粗马克笔,根本改不准。
另一种是铁电电容(FeCAPs),这东西刚好反过来,擅长学习,更新权重又快又省电,精度还高,能满足微调的需求。
但它的问题出在推理上——每次读取数据都会破坏原来的存储内容,相当于读完一本书,书里的字就没了,根本没法反复用,自然没法支持持续的推理工作。
所以之前硬件工程师特别头疼:选忆阻器吧,设备只能当“复读机”,不会学新东西;选铁电电容吧,设备记不住东西,刚学会就忘。
想两者都要?就得在芯片上装两套存储系统,又占地方又费电,边缘设备那点有限的空间和电量根本扛不住。
这次法国团队(由CEA-Leti牵头,还有格勒诺布尔阿尔卑斯大学、CNRS这些机构参与)的突破,就是把这两种技术的优点捏到了一起,搞出了个“全能选手”——混合存储堆栈。
他们的思路特别巧妙,有点像搞“分工合作”,既然忆阻器擅长推理、铁电电容擅长学习,那就让两者各司其职,再搭个桥梁让它们配合。具体怎么干的?
首先,他们设计了一种特殊的存储单元,用掺硅氧化铪和钛吸收层做材料,通过不同的电学“激活方式”,让这个单元既能当忆阻器用,也能当铁电电容用。
相当于一个U盘,想存大文件时切换成普通模式,想快速改文件时切换成编辑模式,一个顶俩用。
然后是工作流程的设计,AI干活分两步:正向传播(推理,用现有知识算账)和反向传播(学习,根据结果调权重)。
团队让忆阻器负责正向传播,用它的模拟权重快速完成推理,保证设备能实时做决策;让铁电电容负责反向传播,用它的高精度优势,一点点微调权重,把更新好的“高精度权重”存起来。
关键的一步是“同步”——每隔一段时间,就把铁电电容里的高精度权重,“翻译”成忆阻器能识别的模拟电导水平,更新到忆阻器里。
这样一来,忆阻器总能用最新的“知识”做推理,铁电电容又能持续优化“知识”,两者形成闭环。
而且他们还搞了个不用数模转换器(DAC)的方法,直接完成权重转换,省了不少硬件成本,还减少了能量损耗。
为了验证这个想法,他们用标准的130纳米CMOS技术,做了一个包含18432个混合存储单元的芯片阵列,把两种存储功能和外围电路都集成到了一块芯片上。
测试结果也很给力:芯片不仅能在片上完成训练,模型精度还能跟传统方法媲美,而且能耗和硬件占用率都大幅降低。
这意味着啥?举几个实际场景你就懂了。
比如自动驾驶汽车,现在的自动驾驶系统遇到没见过的路况(比如突然出现的施工标志、反常的行人走位),可能因为模型没学过,反应不过来。
但有了这种混合内存,汽车可以实时用传感器收集到的新数据训练模型,当场更新算法,下次再遇到类似情况就能应对了。
而且不用传数据到云端,不用担心信号不好或者延迟,安全性大大提高。
再比如医疗传感器,像血糖监测仪、心率监测器,现在大多只能报警“数据异常”,却没法根据病人的实时情况调整监测阈值(比如老人和年轻人的正常心率范围不一样,运动后和静息时也不一样)。
有了这个技术,传感器可以自己学习病人的生理规律,动态调整监测标准,甚至能提前预判风险,比现在的设备智能多了。
还有工业监控,工厂里的传感器要盯着机器的振动、温度这些数据,判断机器是不是要出故障,过去要是机器出现新的故障特征,传感器没学过,就会漏报。
现在传感器可以自己学新的故障模式,不用等工程师远程更新模型,工厂停工检修的时间能大大缩短。
更重要的是,这技术特别适配边缘设备的需求,它用的是130纳米CMOS工艺,不是啥特别尖端的技术,成本不高,容易量产。
而且集成度高,一个存储单元干两种活,芯片体积小,耗电量也低——边缘设备最缺的就是空间和电量,这两点刚好戳中痛点。
当然,现在这技术还在实验室阶段,离真正商用还有段距离,比如大规模阵列的稳定性、长期使用的耐久性,还有和现有AI模型的适配性,都得再优化。
但这个方向肯定是对的,毕竟边缘AI的核心需求就是“自主可控”——不用依赖云端,自己就能闭环学习和推理。
之前总有人说,AI的未来在边缘,因为越来越多的设备需要实时、私密地处理数据(比如医疗数据不能随便传云端)。
但边缘AI的发展一直被硬件卡脖子,尤其是存储技术,这次法国团队的突破,相当于打通了一个关键堵点,给边缘AI的落地铺了条重要的路。
往大了说,这也是AI硬件发展的一个趋势——不再追求单一技术的极致性能,而是通过“混合架构”整合不同技术的优势,实现“1+1>2”的效果。
就像手机摄像头,不是靠一个镜头拍所有场景,而是广角、长焦、微距配合,才能拍出好照片,AI存储也一样,单一技术解决不了的问题,靠组合拳就能搞定。
现在全球都在抢边缘AI的赛道,谁能先解决硬件瓶颈,谁就能在自动驾驶、智能医疗这些领域占得先机。
这次法国团队的成果,算是给行业提了个好头,接下来就看能不能快速迭代,早日从实验室走到实际应用中。
要是真能落地,以后我们身边的设备,可能会比现在聪明得多,也靠谱得多。
来源:笔杆先生一点号