摘要:本月,北京大学王选计算机研究所的周嘉欢助理教授与彭宇新教授团队,在人工智能领域有了新动作,他们的研究成果,已被国际重要期刊接收,相关代码也已开源。
本月,北京大学王选计算机研究所的周嘉欢助理教授与彭宇新教授团队,在人工智能领域有了新动作,他们的研究成果,已被国际重要期刊接收,相关代码也已开源。
这项研究针对的是AI领域里一个颇受关注的难题,能让模型在学习新内容时,更好地留存过往知识,同时在不同数据场景下的适应能力也有变化。
行人重识别技术本身应用范围较广,但在实际使用中,受多种因素影响,传统模式常面临局限。
而北大团队的这项新研究,正是朝着解决这些局限的方向推进,至于具体如何实现突破、效果又有哪些不同,还需进一步了解研究细节才能明晰。
9月,北京大学王选计算机研究所的周嘉欢助理教授和彭宇新教授合作,在人工智能领域的重要国际期刊IEEETPAMI上发布了一项新研究,成果名叫DKP++。
这个成果专门针对终身学习里的“灾难性遗忘”问题,简单说就是模型学了新东西就忘了旧知识,就像人学新技能时把老本事丢了一样。
他们提出的这个分布建模引导的知识对齐与原型建模框架,不光能让模型更好地记住以前学过的知识,还能提升模型在不同数据域之间的学习能力,这可是个不小的突破。
目前,这项研究已经被IEEETPAMI接收,相关代码也开源了,有需要的人随时能去查看使用,这点特别方便同行研究和实际应用落地。
再说说行人重识别这项技术本身,它的作用就是在不同相机视角、不同地点、不同时间的场景下,通过视觉特征找到同一个人的图像并关联起来。
像多摄像头监控、智能交通系统、城市安全管理这些实际场景,都能用得上它,应用价值特别广。
但问题也跟着来了,现实里采集地点、拍摄设备、时间一直在变,行人图像的数据分布也会跟着变,这就导致测试时用的数据和模型训练时用的源数据差别很大,也就是“域偏移”。
这种情况下,传统那种“一次训练好,之后就固定不变用”的ReID模式,在长期动态的环境里就不太好用了。
为了解决这个问题,研究者们提出了“终身行人重识别”的任务设定,简单讲,就是要求模型在不断接收新域数据的过程中。
既能高效学新知识,又能记住以前学过的不同域里行人的身份信息,实现长期学习和知识保留。
不过,终身行人重识别的核心难题还是“灾难性遗忘”,现在常见的解决办法要么是保留历史样本,要么是用知识蒸馏策略。
但保留历史样本有数据隐私泄露的风险,而且存储的东西会越来越多,成本高,知识蒸馏又会限制模型的“可塑性”,让模型学新知识的能力变弱。
还有些用原型学习技术的方法,只给每个类别留一个特征中心,忽略了同一类别内部数据的差异,导致行人的细节信息丢了,根本不适合需要精细匹配的终身行人重识别任务。
北大这个团队的研究,就是针对这些痛点来的,从这点看,他们的研究方向抓得特别准。
为了解决前面说的那些问题,周嘉欢和彭宇新教授带领团队设计了DKP++这个模型,主要有四个关键设计,每一步都很有针对性。
首先是实例级细粒度建模,他们搞了个实例分布建模网络,能动态捕捉行人图像的局部细节。
要知道,行人重识别很多时候靠的就是细节,比如衣服上的小图案、发型的细微差别,这个设计为后续精细匹配打下了坚实基础,考虑得特别细致。
然后是分布感知的原型生成,他们设计了专门的算法,把前面学到的实例级分布信息整合起来,形成更靠谱的类别级分布原型。
之前那些方法只用单一特征中心,毛病不少,这个设计正好克服了这个局限,还能保留同一类别内部的差异信息,让模型对行人的认知更全面。
接着是分布对齐,他们引入了输入端分布建模机制,因为新域和旧域的数据分布差别大,就像两个说不同语言的人没法顺畅沟通一样。
这个机制能缩小这种差别,让模型更好地利用以前学过的知识,相当于给新旧知识搭了座桥。
最后是基于原型的知识迁移,他们弄了个专门的模块,用生成的分布原型和有标注的新数据一起指导模型学习。
这样一来,模型学新知识的时候,还能巩固旧知识,不会顾此失彼,这个平衡做得特别好。
再看实验效果,那也是相当出色,实验用了两个不同的训练域顺序,五个常用的行人重识别数据集。
从综合性能来看,在两种不同的域顺序下,DKP++在已学过的域上的平均性能,比现有的方法提升了5.2%-7%。
在没学过的域上的整体泛化性能,也比现有方法提升了4.5%-7.7%,这个提升幅度很可观,说明模型不管是对旧知识的掌握,还是对新知识的适应,都比以前的方法强。
而且随着已学习域的数量增加,DKP++对历史知识的巩固能力比现有方法更高,在没学过的域上的泛化性能增长速度也更快,这证明它学的知识很扎实。
不是那种“表面功夫”,更值得一提的是,不管用VF-Res还是VF-ViT作为预训练模型,DKP++都能保持优势。
说明它的适配性很强,不用受限于特定的基础模型,这在实际应用中特别实用,能减少很多限制。
这次北大团队的这项研究,技术创新点很突出,一方面,他们基于实例级分布建模构建分布原型,让模型对历史信息的表达能力更强了。
以前模型记不住旧知识,很大程度就是对历史信息的刻画不够深入,这个创新正好解决了这个问题。
另一方面,他们通过域分布建模和样本分布对齐,解决了新旧域数据分布差别大的问题,让历史原型能更好地发挥作用,提升了模型学习和记忆的效率,这两个创新点都切中了行业痛点。
不过,DKP++也不是完美的,未来还有不少可以改进的方向,而且这些方向都很有研究价值和应用潜力。
第一个方向是基于大模型的分布对齐。现在DKP++的分布对齐是用简单的卷积网络实现的,要是以后能用Diffusion这类架构来做,说不定能让模型的抗遗忘能力再上一个台阶。
毕竟大模型在处理复杂数据、捕捉深层规律方面有优势,用在这上面应该能有不错的效果。
第二个方向是知识主动遗忘机制。现在模型里可能会有一些没用的冗余知识,这些知识在模型学新知识的时候会添乱,要是能设计一个机制让模型主动“丢掉”这些没用的知识。
就能让模型更专注于学有用的内容,进一步增强知识巩固和学习能力,这个方向要是能突破,对模型性能的提升会很有帮助。
第三个方向是多模态终身学习机制。实际场景里不只有图像数据,还有红外、点云、音频、文本这些多模态信息。
要是能让模型具备持续学习多模态数据的能力,就能让模型利用更多元的信息,在复杂环境下的感知能力也会更强。
比如在夜晚用红外数据识别行人,再结合音频信息辅助判断,能让识别更准确,应用场景也会更广泛。
总的来说,北大周嘉欢和彭宇新教授团队的这项研究,不仅在当下解决了终身行人重识别领域的不少难题,还为未来的研究指明了方向。
不管是对学术研究还是实际应用,都有很大的推动作用,值得期待后续更多的发展。
北大周嘉欢、彭宇新教授团队的这项研究,虽已展现出解决AI关键难题的潜力,但目前揭开的还只是冰山一角。
开源的代码为更多研究者提供了探索基础,后续能否在更多实际场景中落地,还需进一步验证。
毕竟行人重识别技术的应用场景复杂多变,这项研究能否持续适配不同环境,打破传统模式的更多局限,仍值得关注。
而它为AI抗遗忘领域带来的新思路,又会催生出哪些新的研究方向,这些答案,都将在未来的探索中慢慢浮现。
来源:小项科学科普