杭电浙大等提出GeoProto用流形几何提升可解释AI精度

B站影视 港台电影 2025-10-09 17:42 2

摘要:大家在用一些AI识图软件时,有没有想过,它到底是怎么“思考”的?为什么它能认出这是一只“北极燕鸥”而不是“普通燕鸥”?为了让AI不那么像个黑箱,可解释性AI(XAI)应运而生,其中一个很火的流派就是“原型网络(Prototype-based Network)”

大家在用一些AI识图软件时,有没有想过,它到底是怎么“思考”的?为什么它能认出这是一只“北极燕鸥”而不是“普通燕鸥”?为了让AI不那么像个黑箱,可解释性AI(XAI)应运而生,其中一个很火的流派就是“原型网络(Prototype-based Network)”。

简单来说,这种网络会学习一些典型的“原型”部件,比如鸟的“尖嘴”、汽车的“圆形车轮”,然后通过判断一张新图片里包含了哪些原型,来做出最终分类。但这里有个问题,大多数模型在比较图片特征和原型时,用的是最简单的欧氏距离(Euclidean distance),也就是两点之间的直线距离。可特征空间往往是弯曲的,走直线“抄近道”反而会出错。

来自杭州电子科技大学、浙江大学等机构的研究者们就针对这个问题,提出了一个名为 GeoProto的新框架。它放弃了“抄近道”的欧氏距离,选择沿着特征空间的“道路”(流形)来计算距离,让原型匹配变得更符合语义,也更准确。

论文标题:GEODESIC PROTOTYPE MATCHING VIA DIFFUSION MAPS FOR INTERPRETABLE FINE-GRAINED RECOGNITION作者:Junhao Jia, Yunyou Liu, Yifei Sun, Huangwei Chen, Feiwei Qin, Changmiao Wang, Yong Peng机构:杭州电子科技大学,浙江大学,深圳大数据研究院论文地址:https://arxiv.org/abs/2509.17050

咱们先用一张图来理解下欧氏距离错在哪。在做细粒度分类时,比如区分不同种类的鸟,特征空间里,同一类鸟的特征会聚集在一起,形成一个“类流形(class-manifold)”。

如上图所示,两个在流形上其实离得很远的点(语义差异大),它们的欧氏直线距离可能非常近。这就导致模型在匹配原型时,可能会把一个“鸟头”原型错误地匹配到一个背景里相似的纹理上,因为它俩在特征空间里的“直线距离”很近。这就是所谓的“欧氏捷径(Euclidean shortcuts)”问题。

GeoProto的核心思想就是,不应该走直线,而应该沿着数据本身所在的弯曲流形表面走,这个距离叫作 测地距离(Geodesic Distance)。这样才能真正反映两个特征点的语义相似度。

为了实现这个想法,GeoProto设计了一个端到端的框架,主要分为训练和推理两个阶段。

构建类流形:首先,对于训练集里的每一个类别,模型会提取所有样本的深度特征。然后,基于这些特征构建一个k近邻图(k-NN graph),用这个图来近似表达该类别的潜在流形结构。学习扩散图嵌入:接着,模型使用 扩散图(Diffusion Maps) 技术,将这个高维、弯曲的流形“展开”成一个更低维、更平坦的“扩散空间”。在这个空间里,两点间的欧氏距离就等价于原始流形上的扩散距离,而扩散距离是测地距离的一个很好的近似。原型嵌入:模型学习到的原型(Prototypes)也会被映射到这个扩散空间中。为了让这个过程可微分且高效,作者采用了一种名为 Nyström扩展 的方法,使得任何新的特征点(无论是测试样本还是原型)都能被快速地嵌入到已经构建好的流形中。

当一张新的查询图片到来时:

特征提取与嵌入:图片先通过CNN主干网络提取特征。计算测地相似度:然后,利用Nyström扩展将该特征嵌入到 每一个 类别的扩散流形中,并计算它与该类别所有原型的测地距离(也就是在扩散空间中的欧氏距离)。聚合与分类:最后,模型会聚合这些距离分数,转换成相似度,并根据最相似的原型组合来判断图片属于哪个类别,同时给出“这张图的这个部分像某个原型的这个部分”这样的可视化解释。

GeoProto不仅在理论上听起来很棒,在实际测试中也表现出了优越的性能。

上表展示了在CUB-200-2011(鸟类)和Stanford Cars(汽车)两个经典细粒度识别数据集上的准确率。可以看到,在不同的骨干网络下,GeoProto(最后一行)的准确率 全面超越了 其他所有基于原型的可解释方法。例如,在CUB数据集上使用ResNet-50时,GeoProto达到了 87.8% 的准确率,比之前的SOTA方法MGProto高出1.6%。

准确率的提升是一方面,更重要的是,这种提升来自于更合理的原型匹配。

上图的对比一目了然。对于同一个原型(比如鸟头),GeoProto找到的匹配图像块(a)都非常精准地对应着其他鸟的头部。而基于欧氏距离的方法(b)则找来了一些背景或无关纹理,显然是“抄近道”抄错了地方。

作者还通过一系列消融实验证明了框架中各个组件的有效性,比如测地距离的替换、图的构建方式、Nyström扩展的参数选择等,都对最终性能有重要影响。

GeoProto这个工作点出了一个在可解释AI领域可能被长期忽视的问题:度量“相似性”的方式是否真的合理?它提醒人们,在深度学习构建的复杂特征空间中,几何结构至关重要,简单地“拉直线”很可能会误导模型。

将流形学习的思想引入到原型网络中,不仅提升了分类的准确性,更重要的是让模型的解释变得更加忠实和可信。这个思路对于所有依赖距离度量的可解释性方法,甚至更广泛的度量学习领域,都具有很好的启发意义。

来源:极市平台

相关推荐