杭电浙大等提出GeoProto用流形几何提升可解释AI精度

摘要：大家在用一些AI识图软件时，有没有想过，它到底是怎么“思考”的？为什么它能认出这是一只“北极燕鸥”而不是“普通燕鸥”？为了让AI不那么像个黑箱，可解释性AI（XAI）应运而生，其中一个很火的流派就是“原型网络（Prototype-based Network）”

大家在用一些AI识图软件时，有没有想过，它到底是怎么“思考”的？为什么它能认出这是一只“北极燕鸥”而不是“普通燕鸥”？为了让AI不那么像个黑箱，可解释性AI（XAI）应运而生，其中一个很火的流派就是“原型网络（Prototype-based Network）”。

简单来说，这种网络会学习一些典型的“原型”部件，比如鸟的“尖嘴”、汽车的“圆形车轮”，然后通过判断一张新图片里包含了哪些原型，来做出最终分类。但这里有个问题，大多数模型在比较图片特征和原型时，用的是最简单的欧氏距离（Euclidean distance），也就是两点之间的直线距离。可特征空间往往是弯曲的，走直线“抄近道”反而会出错。

来自杭州电子科技大学、浙江大学等机构的研究者们就针对这个问题，提出了一个名为 GeoProto的新框架。它放弃了“抄近道”的欧氏距离，选择沿着特征空间的“道路”（流形）来计算距离，让原型匹配变得更符合语义，也更准确。

论文标题：GEODESIC PROTOTYPE MATCHING VIA DIFFUSION MAPS FOR INTERPRETABLE FINE-GRAINED RECOGNITION作者：Junhao Jia, Yunyou Liu, Yifei Sun, Huangwei Chen, Feiwei Qin, Changmiao Wang, Yong Peng机构：杭州电子科技大学，浙江大学，深圳大数据研究院论文地址：https://arxiv.org/abs/2509.17050

咱们先用一张图来理解下欧氏距离错在哪。在做细粒度分类时，比如区分不同种类的鸟，特征空间里，同一类鸟的特征会聚集在一起，形成一个“类流形（class-manifold）”。

如上图所示，两个在流形上其实离得很远的点（语义差异大），它们的欧氏直线距离可能非常近。这就导致模型在匹配原型时，可能会把一个“鸟头”原型错误地匹配到一个背景里相似的纹理上，因为它俩在特征空间里的“直线距离”很近。这就是所谓的“欧氏捷径（Euclidean shortcuts）”问题。

GeoProto的核心思想就是，不应该走直线，而应该沿着数据本身所在的弯曲流形表面走，这个距离叫作 测地距离（Geodesic Distance）。这样才能真正反映两个特征点的语义相似度。

为了实现这个想法，GeoProto设计了一个端到端的框架，主要分为训练和推理两个阶段。

构建类流形：首先，对于训练集里的每一个类别，模型会提取所有样本的深度特征。然后，基于这些特征构建一个k近邻图（k-NN graph），用这个图来近似表达该类别的潜在流形结构。学习扩散图嵌入：接着，模型使用 扩散图（Diffusion Maps） 技术，将这个高维、弯曲的流形“展开”成一个更低维、更平坦的“扩散空间”。在这个空间里，两点间的欧氏距离就等价于原始流形上的扩散距离，而扩散距离是测地距离的一个很好的近似。原型嵌入：模型学习到的原型（Prototypes）也会被映射到这个扩散空间中。为了让这个过程可微分且高效，作者采用了一种名为 Nyström扩展 的方法，使得任何新的特征点（无论是测试样本还是原型）都能被快速地嵌入到已经构建好的流形中。

当一张新的查询图片到来时：

特征提取与嵌入：图片先通过CNN主干网络提取特征。计算测地相似度：然后，利用Nyström扩展将该特征嵌入到每一个类别的扩散流形中，并计算它与该类别所有原型的测地距离（也就是在扩散空间中的欧氏距离）。聚合与分类：最后，模型会聚合这些距离分数，转换成相似度，并根据最相似的原型组合来判断图片属于哪个类别，同时给出“这张图的这个部分像某个原型的这个部分”这样的可视化解释。

GeoProto不仅在理论上听起来很棒，在实际测试中也表现出了优越的性能。

上表展示了在CUB-200-2011（鸟类）和Stanford Cars（汽车）两个经典细粒度识别数据集上的准确率。可以看到，在不同的骨干网络下，GeoProto（最后一行）的准确率 全面超越了 其他所有基于原型的可解释方法。例如，在CUB数据集上使用ResNet-50时，GeoProto达到了 87.8% 的准确率，比之前的SOTA方法MGProto高出1.6%。

准确率的提升是一方面，更重要的是，这种提升来自于更合理的原型匹配。