中山大学提出AD-DINOv3，首次将DINOv3成功用于零样本异常检测

摘要：在工业质检和医疗诊断等领域，异常检测是保障质量与安全的关键环节。然而，传统的监督方法需要为每一类异常提供大量标注样本，成本高昂。因此，能够识别任意新类别异常的“零样本异常检测”（Zero-Shot Anomaly Detection, ZSAD）技术，因其高可

作者丨我爱计算机视觉

来源丨我爱计算机视觉

编辑丨极市平台

在工业质检和医疗诊断等领域，异常检测是保障质量与安全的关键环节。然而，传统的监督方法需要为每一类异常提供大量标注样本，成本高昂。因此，能够识别任意新类别异常的“零样本异常检测”（Zero-Shot Anomaly Detection, ZSAD）技术，因其高可扩展性和低标注需求而备受关注。

目前，大多数ZSAD方法依赖于CLIP这样的视觉-语言模型。而最近，像DINOv3这样的纯视觉基础模型，因其强大的可迁移表示能力，展现出巨大潜力。来自中山大学的研究团队在一篇名为 《AD-DINOv3: Enhancing DINOv3 for Zero-Shot Anomaly Detection with Anomaly-Aware Calibration》 的论文中，首次尝试将DINOv3应用于ZSAD任务，并提出了一个名为 AD-DINOv3 的新框架，成功解决了这一适配过程中的关键挑战。

论文标题：AD-DINOv3: Enhancing DINOv3 for Zero-Shot Anomaly Detection with Anomaly-Aware Calibration作者团队：Jingyi Yuan, Jianxiong Ye, Wenkang Chen, Chenqiang Gao机构：中山大学 (Sun Yat-Sen University)论文地址：https://arxiv.org/abs/2509.14084

ZSAD的核心思想是利用大规模预训练模型的泛化能力。现有方法通常使用CLIP，通过计算图像特征与“正常”、“异常”等文本提示（prompt）的相似度来定位异常。然而，CLIP的视觉表示能力仍有提升空间。

相比之下，DINOv3作为自监督学习的杰出代表，学习到了更强大、更具泛化性的视觉特征。但将其直接用于ZSAD，会面临两大挑战：

领域偏差与特征错位：DINOv3在海量通用数据上预训练，而异常检测任务的数据分布与之存在显著差异（Domain Bias），导致模型提取的特征与任务需求错位。全局语义偏好：预训练模型倾向于关注图像的整体、显著的前景物体（全局语义），这常常导致模型忽略或误解那些细微的、局部的异常点，将其视为正常物体的一部分。

如下图所示，原始DINOv3在关注正常区域（上排）时，其注意力会错误地发散到异常区域；而在关注异常点（下排红点）时，其响应又不集中，无法有效将其与正常背景区分开。

为了解决上述挑战，研究者们提出了 AD-DINOv3 框架。该框架将异常检测构建为一个多模态对比学习问题，并设计了两个核心模块来“校准”DINOv3，使其更专注于异常检测任务。

为了解决领域偏差问题，AD-DINOv3 没有选择成本高昂的完全微调，而是在DINOv3视觉骨干和CLIP文本编码器中都引入了轻量级的适配器（Adapter）。这些适配器是一些小型的、可训练的神经网络模块，它们可以在保持强大预训练模型参数不变的情况下，对模型的表示能力进行微调，使其更好地对齐到异常检测这一特定任务上，从而有效弥合领域鸿沟。

这是该框架最核心的创新。为了解决DINOv3的全局语义偏好问题，研究者设计了 异常感知校准模块 (Anomaly-Aware Calibration Module, AACM) 。

问题根源：在Vision Transformer架构中，CLS token负责聚合整个图像的全局信息。由于预训练任务的性质，它天然地更关注图像中的主要物体，因此容易忽略局部、细微的异常。解决方案：AACM模块在训练过程中，利用真实的异常掩码（mask）作为监督信号，明确地引导CLS token去关注（attend to）那些代表异常区域的图像块（patch tokens）。通过这种方式，AACM“校准”了CLS token的行为，使其从一个“通用前景语义的聚合器”转变为一个“异常区域的探测器”。经过校准后，整个模型的特征空间被重塑，使得异常特征更具辨别性。

研究团队在MVTec AD、VisA等8个工业和医疗领域的公开基准数据集上进行了大量实验，以验证 AD-DINOv3 的性能。

如下表所示，无论是在工业数据集还是医疗数据集上，AD-DINOv3 在像素级异常定位的AUROC和F1-score指标上，都 持续达到或超越了 目前最先进的（SOTA）方法。例如，在MVTec AD上，其AUROC和F1分数分别达到了 91.6% 和 50.1% ，创造了新的纪录。在所有工业数据集上的平均性能也全面领先。

从可视化的热力图结果来看，AD-DINOv3 的优势更加明显。如下图所示，相比于WinCLIP、APRIL-GAN等方法，AD-DINOv3 生成的异常区域热力图更清晰、更精准，能够准确地勾勒出金属划痕、电路板缺陷、皮肤病变等各种异常的轮廓，同时有效抑制了背景噪声。

消融研究证实了框架中每个组件的有效性。例如，在MVTec AD数据集上，仅引入跨模态对比学习（CMCL）就能带来14.78%的AUROC提升；在CMCL的基础上再加入AACM模块，性能被进一步提升。这证明了适配器和异常感知校准模块对于实现卓越性能缺一不可。

04 总结与贡献

这项工作成功地将强大的视觉基础模型DINOv3引入到零样本异常检测领域，并取得了突破性的成果。其主要贡献在于：

首次将DINOv3用于ZSAD：提出了第一个成功适配DINOv3用于零样本异常检测的框架 AD-DINOv3。提出异常感知校准模块 (AACM) ：设计了一个新颖的校准模块，有效解决了DINOv3在异常检测任务中对全局语义的过度偏好问题，显著提升了对细微异常的辨别能力。树立了新的SOTA：在8个工业和医疗基准测试中取得了全面领先的性能，证明了其作为通用ZSAD框架的有效性和优越性。

总而言之，AD-DINOv3 的提出，不仅为零样本异常检测提供了一个更强大、更通用的解决方案，也为如何将大型自监督视觉模型适配到下游特定任务提供了宝贵的思路。

来源：极市平台

标签：中山大学 cls dinov3 zsad aacm

本文地址：http://news.43b.com.cn/a/1283142.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!