摘要:近日,第39届人工智能领域顶级会议AAAI 2025 (CCF A)论文录用发榜,课题组论文 “Revisiting Multimodal Fusion for 3D Anomaly Detection from An Architectural Perspe
作者丨东北大学
来源丨CVer
编辑丨极市平台
近日,第39届人工智能领域顶级会议AAAI 2025 (CCF A)论文录用发榜,课题组论文 “Revisiting Multimodal Fusion for 3D Anomaly Detection from An Architectural Perspective”被录用(龙开放,谢国洋,马连博*,刘佳奇,陆智超),东北大学软件学院为第一单位,马连博教授为通讯作者,论文为马连博教授指导的博士研究生工作。AAAI是人工智能领域的国际顶级会议之一,也是中国计算机学会(CCF)分类的A类会议。AAAI每年召开一届,近年来投稿量逐年增加。据其官网数据显示,2025年度AAAI总投稿量12,957份,最终有3,032篇论文被接收,接收率约为23.4%,被录用的论文主题涵盖了人工智能领域的各项前沿工作。
Kaifang Long, Guoyang Xie, Lianbo Ma*, Jiaqi Liu, Zhichao Lu. "Revisiting Multimodal Fusion for 3D Anomaly Detection from An Architectural Perspective." Accepted by AAAI-25. (CCF A)
工业异常检测有望像人工检查员一样准确地找出正常样本和异常之间的差异.现有的促进 3D 异常检测 (3D-AD) 多模态融合的努力主要集中在设计更有效的多模态融合策略上。然而,很少有人关注分析多模态融合架构 (拓扑) 设计对 3D-AD 的贡献。在本文中,我们旨在弥合这一空白,并系统地研究多模态融合架构设计对 3D-AD 的影响。这项工作考虑了模块内融合级别的多模态融合架构设计,即独立的模态特定模块,涉及具有特定融合操作的早期、中期或晚期多模态特征,以及模块间融合级别的多模态融合架构设计,即融合这些模块的策略。在这两种情况下,我们首先通过理论和实验探索架构设计如何影响 3D-AD 来获得见解。然后,我们扩展 SOTA 神经架构搜索 (NAS) 范式,并首次提出 3D-ADNAS 来同时搜索多模态融合策略和模态特定模块。
图1:3D-ADNAS 的总体框架
图一展示了在MVTec 3D-AD数据集上不同的融合模式,即早期融合、中期融合、晚期融合和混合融合,对3D-AD性能的影响。单独使用中期特征融合比早期或晚期特征融合效果更佳,而单独使用晚期特征会降低 3D-AD 性能。但是,当与其他融合策略结合时,晚期特征融合可以持续提高大多数 3D-AD 任务的性能。
图2:融合模式的选择对3D-AD性能的影响
图三展示了在MVTec 3D-AD数据集上不同的特征选择对3D-AD性能的影响。通常来说,选择前两层中间特征进行融合对 3D-AD 训练更有利,而不是选择标准 3D-AD 中使用的所有中间特征
表一至表三展示了在Eyecandies数据集和MVTec 3D-AD数据集上的实验性能。结果表明,与最新的方法相比,我们的方法达到了最好的性能。
来源:极市平台