摘要:大家在用一些AI识图软件时,有没有想过,它到底是怎么“思考”的?为什么它能认出这是一只“北极燕鸥”而不是“普通燕鸥”?为了让AI不那么像个黑箱,可解释性AI(XAI)应运而生,其中一个很火的流派就是“原型网络(Prototype-based Network)”
大家在用一些AI识图软件时,有没有想过,它到底是怎么“思考”的?为什么它能认出这是一只“北极燕鸥”而不是“普通燕鸥”?为了让AI不那么像个黑箱,可解释性AI(XAI)应运而生,其中一个很火的流派就是“原型网络(Prototype-based Network)”。
简单来说,这种网络会学习一些典型的“原型”部件,比如鸟的“尖嘴”、汽车的“圆形车轮”,然后通过判断一张新图片里包含了哪些原型,来做出最终分类。但这里有个问题,大多数模型在比较图片特征和原型时,用的是最简单的欧氏距离(Euclidean distance),也就是两点之间的直线距离。可特征空间往往是弯曲的,走直线“抄近道”反而会出错。
来自杭州电子科技大学、浙江大学等机构的研究者们就针对这个问题,提出了一个名为 GeoProto的新框架。它放弃了“抄近道”的欧氏距离,选择沿着特征空间的“道路”(流形)来计算距离,让原型匹配变得更符合语义,也更准确。
咱们先用一张图来理解下欧氏距离错在哪。在做细粒度分类时,比如区分不同种类的鸟,特征空间里,同一类鸟的特征会聚集在一起,形成一个“类流形(class-manifold)”。
如上图所示,两个在流形上其实离得很远的点(语义差异大),它们的欧氏直线距离可能非常近。这就导致模型在匹配原型时,可能会把一个“鸟头”原型错误地匹配到一个背景里相似的纹理上,因为它俩在特征空间里的“直线距离”很近。这就是所谓的“欧氏捷径(Euclidean shortcuts)”问题。
GeoProto的核心思想就是,不应该走直线,而应该沿着数据本身所在的弯曲流形表面走,这个距离叫作 测地距离(Geodesic Distance)。这样才能真正反映两个特征点的语义相似度。
为了实现这个想法,GeoProto设计了一个端到端的框架,主要分为训练和推理两个阶段。
当一张新的查询图片到来时:
特征提取与嵌入:图片先通过CNN主干网络提取特征。计算测地相似度:然后,利用Nyström扩展将该特征嵌入到 每一个 类别的扩散流形中,并计算它与该类别所有原型的测地距离(也就是在扩散空间中的欧氏距离)。聚合与分类:最后,模型会聚合这些距离分数,转换成相似度,并根据最相似的原型组合来判断图片属于哪个类别,同时给出“这张图的这个部分像某个原型的这个部分”这样的可视化解释。GeoProto不仅在理论上听起来很棒,在实际测试中也表现出了优越的性能。
上表展示了在CUB-200-2011(鸟类)和Stanford Cars(汽车)两个经典细粒度识别数据集上的准确率。可以看到,在不同的骨干网络下,GeoProto(最后一行)的准确率 全面超越了 其他所有基于原型的可解释方法。例如,在CUB数据集上使用ResNet-50时,GeoProto达到了 87.8% 的准确率,比之前的SOTA方法MGProto高出1.6%。
准确率的提升是一方面,更重要的是,这种提升来自于更合理的原型匹配。
上图的对比一目了然。对于同一个原型(比如鸟头),GeoProto找到的匹配图像块(a)都非常精准地对应着其他鸟的头部。而基于欧氏距离的方法(b)则找来了一些背景或无关纹理,显然是“抄近道”抄错了地方。
作者还通过一系列消融实验证明了框架中各个组件的有效性,比如测地距离的替换、图的构建方式、Nyström扩展的参数选择等,都对最终性能有重要影响。
GeoProto这个工作点出了一个在可解释AI领域可能被长期忽视的问题:度量“相似性”的方式是否真的合理?它提醒人们,在深度学习构建的复杂特征空间中,几何结构至关重要,简单地“拉直线”很可能会误导模型。
将流形学习的思想引入到原型网络中,不仅提升了分类的准确性,更重要的是让模型的解释变得更加忠实和可信。这个思路对于所有依赖距离度量的可解释性方法,甚至更广泛的度量学习领域,都具有很好的启发意义。
来源:极市平台
