摘要:假设你正在驾驶一辆自动驾驶汽车,完全依赖它的车载计算机来做出瞬间决策。它能够检测物体、识别行人,甚至能够预测其他车辆的行为。但问题在于:你知道它有效,但你不知道它是如何做到的。如果发生了意外情况,你无法清楚地理解结果背后的推理过程。这时,可解释人工智能(XAI
背景
假设你正在驾驶一辆自动驾驶汽车,完全依赖它的车载计算机来做出瞬间决策。它能够检测物体、识别行人,甚至能够预测其他车辆的行为。但问题在于:你知道它有效,但你不知道它是如何做到的。如果发生了意外情况,你无法清楚地理解结果背后的推理过程。这时,可解释人工智能(XAI)就派上了用场。深度学习模型,通常被视为“黑箱”,在各个领域中越来越多地被用于自动化预测和决策。可解释性就是要打开这个“黑箱”。我们可以把它看作是一个工具包,帮助我们不仅理解这些模型做了什么,还能理解它们为什么做出这些决策,确保这些系统按预期运行。
近年来,XAI领域取得了显著进展,提供了对模型内部工作机制的深入了解。随着人工智能在关键领域的应用变得愈加重要,解决责任问题对于维持这些系统的可靠性和信任至关重要。这一点对于高风险应用(如汽车、航空航天和医疗)尤为关键,在这些领域中,理解模型决策至关重要,以确保系统的稳健性、可靠性和实时安全操作。无论是解释为何某个病人的医疗扫描结果被标记为令人担忧,还是识别导致风电风险评估中鸟类检测模型误分类的原因,XAI方法都能够帮助我们洞察模型的推理过程。
我们常常听到关于“黑箱”和“透明度”级别的讨论,但什么才是真正的可解释AI系统?它如何应用于深度学习,以优化系统性能并简化维护?而这不仅仅是满足我们的好奇心。在本文中,我们将探讨可解释性在过去几十年中如何演变,进而重新塑造计算机视觉的格局,反之亦然。
在过去的一个世纪里,深度学习和计算机视觉领域见证了许多关键里程碑,这些里程碑不仅塑造了现代AI,也推动了可解释性方法和框架的发展与完善。让我们回顾一下,在可解释性之前和之后,深度学习的关键发展和历史里程碑,展示它们对视觉XAI演变的影响(覆盖:1920年代至今):
1924年:德国数学家弗朗茨·布雷西格将电子学中四极管的显式使用称为“黑箱”,这个概念指的是一个系统,只有终端可见,内部机制被隐藏。1943年:沃伦·麦卡洛克和沃尔特·皮茨在他们的开创性著作《神经活动中固有思想的逻辑演算》中发布了麦卡洛克-皮茨(MCP)神经元,这是第一个人工神经元的数学模型,为神经网络的基础奠定了基础。1949年:唐纳德·O·赫布提出了希布学习的神经心理学概念,解释了突触可塑性的基本机制,提出(大脑)神经连接通过使用而增强(同时激活的细胞会连接在一起),因此可以通过学习重新建模。1950年:艾伦·图灵发表了《计算机与智能》,提出了他开创性的“图灵测试”概念,用于确定机器是否能够“思考”。1958年:美国心理学家弗兰克·罗森布拉特在其《感知器:大脑信息存储和组织的概率模型》中提出了感知器,这是第一个人工神经网络。图1所示。Rosenblatt的感知器示意图
1962年:弗兰克·罗森布拉特提出了反向传播误差修正,这是计算机学习的一个基本概念,激发了后续深度学习工作的开展。1963年:阿根廷-加拿大哲学家和物理学家马里奥·邦格发表了《一般黑箱理论》,为黑箱理论的发展做出了贡献,并将其定义为一种抽象,代表“刺激S作用于的具体系统集合,以及从中产生反应R的输出”。1967年:日本工程师和神经科学家天谷俊一开创了第一个使用随机梯度下降训练的多层感知器,用于分类非线性可分的模式。1969年:日本计算机科学家福岛邦彦引入了修正线性单元(ReLU),该激活函数至今成为深度学习中最广泛采用的激活函数。1970年:芬兰数学家和计算机科学家塞波·林奈马在他的硕士论文中提出了“反向自动微分模式”,这是反向传播的现代变体。1980年:福岛邦彦提出了Neocognitron,这是一种早期的深度学习架构,用于卷积神经网络(CNN),并且不使用反向传播进行训练。1989年:法国-美国计算机科学家扬·勒昆提出了LeNet,这是第一个成功应用反向传播进行手写邮政编码识别的CNN架构。1995年:Morch等人引入了显著性图(saliency maps),提供了揭示深度神经网络内部工作原理的首批可解释性方法之一。2000年代:进一步的进展,包括CUDA的开发,使得在GPU上进行并行处理成为可能,推动了高性能科学计算的发展;同时,ImageNet作为一个大规模手工策划的视觉数据集,推动了基础和应用AI研究的前进。2010年代:计算机视觉领域持续突破,例如Krizhevsky、Sutskever和Hinton为ImageNet分类设计的深度卷积网络,推动了AI在各行各业的广泛应用。XAI领域也蓬勃发展,出现了CNN显著性图、LIME、Grad-CAM和SHAP等方法。图 2. 2014–2024 年间视觉模型在 ImageNet 分类任务中的最新技术水平基准。
2020年代:随着2017年论文《Attention Is All You Need》的发布,人工智能热潮逐渐升温,该论文引入了一个名为Transformer的编码器-解码器架构,催化了基于Transformer的更先进架构的发展。基于Allen AI的ELMo、Google的BERT和OpenAI的GPT等早期成功的基础上,Transformer被广泛应用于多个模态和领域,包括计算机视觉,推动了多模态研究的进展。2021年,OpenAI推出了CLIP,一个能够从自然语言监督中学习视觉概念的模型,为生成式AI创新铺平了道路,包括DALL-E(2021年)、Stable Diffusion 3(2024年)和Sora(2024年),这些模型提升了图像和视频生成能力。
2024年:欧盟AI法案生效,为欧洲的AI系统建立了法律要求,包括对透明性、可靠性和公平性的规定。例如,第27条款定义了AI系统的透明性:“以一种能够允许适当追溯和可解释的方式进行开发和使用……有助于设计连贯、可信赖和以人为本的AI。”
正如我们所见,早期的研究主要集中在基础方法和算法上,随后进展集中在特定领域,包括计算机视觉。20世纪末,关键概念开始出现,为未来的突破(如1980年代的反向传播训练的CNN)奠定了基础。随着时间的推移,可解释人工智能领域迅速发展,增强了我们对预测背后推理的理解,并通过增加的研究和行业应用,使得决策更加信息化。随着(X)AI的兴起,关注点转向了平衡系统效率和可解释性,帮助大规模理解模型,并在机器学习生命周期中整合XAI解决方案 [Bhatt et al., 2019, Decker et al., 2023]。
事实上,直到过去二十年,这些技术才变得足够实用,导致了广泛的应用。最近,立法措施和监管框架相继出现,如欧盟AI法案(2024年8月)和中国TC260的AI安全治理框架(2024年9月),标志着对AI开发和部署的更严格监管的开始,其中包括执行“要求部署方提供关于AI系统在决策程序中的角色和决策要素的清晰且有意义的解释”(第86条,2026年)。这是XAI展现其最大价值的时刻。然而,尽管经过多年的严谨研究和越来越重视可解释性,相关话题似乎逐渐淡出了公众视野。真的是这样吗?现在,让我们从全局角度来思考这个问题。
2. AI的兴起与现状:XAI与RAI的视角
如今,进入技术领域是一个令人兴奋的时代。在1990年代,Gartner提出了一个叫做“炒作周期”的概念,用来描述新兴技术如何随时间演变——从最初的兴趣激发到社会应用。根据这种方法,技术通常从创新突破开始(称为“技术触发”),然后经历一段激动人心的快速上升,最终达到“过高预期的峰值”。然而,当技术未能按预期交付时,它会进入“失望的低谷”,人们的热情会消退,变得沮丧。这个过程可以描述为一个急剧上升的曲线,最终下降到一个低点,然后趋于平稳,形成一个较为平缓的上升,代表着技术进入了一个可持续的“生产力平台”。后者意味着,随着时间的推移,某项技术能够真正成为有生产力的工具,尽管它周围的炒作已经减少。
图 3. 2024 年 Gartner 人工智能炒作周期图。
看看以前那些被认为能够解决一切问题的技术——智能代理、云计算、区块链、大脑-计算机接口、大数据,甚至深度学习。它们都曾在技术界占据了重要地位,但当然,没有一项技术成为所谓的“灵丹妙药”。如今,可解释性话题也经历了类似的过程。我们一再看到历史在重演。正如2024年Gartner AI炒作周期(图3)所强调的,负责任的AI(RAI)正在获得越来越多的关注(位于左上角),预计将在未来五年内达到成熟。可解释性为负责任的AI实践提供了基础,确保了透明性、问责制、安全性和公平性。
下图概述了XAI研究趋势和应用,来源于2018至2022年间发布的科学文献,涵盖了XAI领域中的各种概念,包括“可解释人工智能”、“可解释的人工智能”和“负责任的人工智能”。图4a根据元综述结果列出了关键的XAI研究领域。最大的关注点(44%)是设计可解释性方法,其次是15%的XAI在具体应用场景中的应用。依赖于特定领域的研究(例如金融)占12%,较小的领域——需求分析、数据类型和人机交互——每个占大约5%到6%。
图 4. XAI 研究视角 (a) 和应用领域 (b)
旁边是常见的应用领域(图4b),其中医疗护理领域占主导地位(23%),这主要是由于需要建立信任和决策支持。接下来是工业4.0(6%)和安全(4%)领域,解释性在这些领域被应用于工业优化和欺诈检测。其他领域包括自然科学、法律研究、机器人技术、自动驾驶、教育和社会科学。
随着XAI向可持续状态发展,研究和开发越来越专注于解决公平性、透明度和问责制问题。这些维度对于确保公正结果、澄清决策过程、确立决策责任至关重要,从而促进用户信任,并与监管框架和行业标准对接。回顾过去技术发展的轨迹,XAI的兴起突显了构建AI驱动解决方案的挑战与机遇,确立了其在负责任的AI实践中的重要地位,增强了AI在现实应用中的长期相关性。
这是人们对AI系统的常见看法:你输入数据,然后有一个“黑箱”处理它,输出结果,但我们无法检查系统的内部工作原理。但真的是这样吗?随着AI的普及,开发可靠、可扩展和透明的系统变得越来越重要。简而言之:可解释AI的概念可以描述为做一些事情,以便提供更清晰的理解,了解输入和输出之间发生了什么。从广义上讲,可以将其视为一组方法,使我们能够构建能够提供期望结果的系统。实际上,模型理解可以定义为生成用户能够理解的模型行为解释的能力。这种理解在各行各业的各种应用场景中至关重要,包括:
模型调试和质量保证(例如,制造业、机器人技术);确保系统对最终用户的可信度(如医疗、金融);通过识别模型可能失败的场景来提高系统性能(例如银行的欺诈检测、电商);增强系统对抗敌方的鲁棒性(例如网络安全、自动驾驶汽车);解释决策过程(如金融中的信用评分、法律中的司法决策);检测数据标签错误和其他问题(例如零售中的客户行为分析、医疗影像中的健康检查)。AI的广泛应用导致它在各个领域和高风险应用中的普及。这里的关键是:人类理解与模型理解并不相同。虽然AI模型以人类本能上不直观的方式处理信息,XAI的主要目标之一是创建能够有效传达其推理的系统——换句话说,就是用用户可以理解和有意义的方式“说话”。那么,问题是,我们如何弥合模型“知道”与人类理解其输出之间的差距?
可解释的AI不仅仅是对模型进行解读,而是使机器能够通过知识转移有效地支持人类。为了解决这些方面,可以考虑如何将可解释性与AI生态系统中不同角色和利益相关者的期望联系起来。这些群体通常包括用户、开发者、部署者、相关方和监管者。因此,他们的需求——即他们对AI的期望特性和结果——也各不相同,这表明可解释性需要满足多种需求和挑战。在Langer等人(2021)的研究中,理解在解决认识论方面起着至关重要的作用,指的是利益相关者评估系统是否符合他们期望的能力,例如公平性和透明度。
图5展示了一个概念模型,概述了从可解释性方法到满足利益相关者需求的路径,而这些需求又影响着他们期望的实现程度。那么,什么构成一个“好的”解释?该研究认为,它不仅应该准确、具有代表性,并且与系统及其功能相关,还应符合社会伦理和法律考虑,这些考虑在证明某些期望时可能具有决定性作用。例如,在高风险场景下,如医疗诊断,所需的解释深度可能会更大 [Saraswat et al., 2022]。
图 5. 可解释性与利益相关者需求之间的关系
在这里,我们可以说,XAI作为技术的成功取决于它如何有效地通过解释性信息促进人类理解,强调了在各利益相关者之间谨慎权衡的必要性。例如,对于领域专家和用户(如医生、法官、审计员)来说,他们负责解释和审计AI系统输出以进行决策,因此,确保可解释性结果简明且具有领域特定性,能够与专家的直觉相一致,而不会造成信息过载,这对于人类参与的应用尤其重要。在这里,挑战可能来自于输入与输出之间的不确定性和缺乏明确的因果关系,这可以通过针对特定应用场景的局部后验解释来解决。
受影响的群体(例如求职者、患者)是那些受AI决策影响的个体,公平性和伦理性是关键问题,尤其是在招聘或医疗等场景中。在这种情况下,可解释性方法可以帮助识别在决策过程中可能导致偏见的因素,从而加以缓解,或至少承认并消除这些因素。类似地,监管机构可能会寻求确定一个系统是否对某个群体存在偏见,以确保符合伦理和监管标准,特别关注在高风险应用中的透明度、可追溯性和非歧视性。
图 6. 机器学习生命周期过程中的可解释性
对于采用AI的企业和组织来说,挑战可能在于确保负责任地实施AI,符合相关法规和行业标准,同时保持用户信任。在这种情况下,使用全局性解释并将XAI整合到机器学习生命周期中(见图6)可以特别有效。总体而言,监管机构和部署者的目标是理解整个系统,以最大程度地减少不可信的边际案例。当涉及到实践者(如开发人员和研究人员),他们负责构建和维护AI系统时,他们可能有兴趣利用XAI工具诊断和改进模型性能,并通过提供模型推理细节的可解释性接口推进现有解决方案 [Bhatt et al., 2020]。然而,这些可能带来较高的计算成本,导致大规模部署面临挑战。
在这种情况下,XAI开发栈可以包括开源和专有工具包、框架和库,例如PyTorch Captum、Google Model Card Toolkit、Microsoft Responsible AI Toolbox、IBM AI Fairness 360,以确保从开发到部署及其后阶段构建的系统是安全、可靠和可信的。
正如我们所见——“一刀切”并不适用。一个持续的挑战是为不同的利益相关者提供既准确又有意义的解释,同时在实际应用中平衡透明度和可用性。现在,让我们更实际地讨论一下XAI。
随着AI系统的发展,现代方法在复杂任务(如图像分类)上的性能取得了显著提升,超越了早期依赖手工算法进行视觉特征提取和检测的图像处理技术 [Sobel 和 Feldman, 1973, Canny, 1987]。尽管现代深度学习架构本身并不具备可解释性,但已经开发出各种解决方案,提供给定输入的模型行为解释,从而弥合了人类(理解)与机器(过程)之间的差距。在深度学习的突破之后,许多XAI方法应运而生,以增强计算机视觉领域中的可解释性。图像分类和物体检测应用为重点,下面的图7概述了过去几十年里开发的几种常用的XAI方法:
图 7. 计算机视觉中的可解释性方法
XAI方法可以根据其方法论大致分为基于反向传播的方法和基于扰动的方法,而解释的范围可以是局部的或全局的。在计算机视觉中,这些方法或它们的组合被用来揭示模型预测背后的决策标准。基于反向传播的方法通过从输出到输入传播信号,为在前向传播过程中计算的每个中间值分配权重。然后,梯度函数更新模型中的每个参数,以使输出与真实值对齐,因此这些技术也被称为基于梯度的方法。示例包括显著性图、积分梯度。相反,基于扰动的方法通过技术如遮挡来修改输入,评估这些微小变化如何影响网络输出。与基于反向传播的方法不同,扰动技术不需要梯度,因为一次前向传播就足以评估输入变化如何影响输出。
对于“黑箱”架构的可解释性,通常是通过模型训练后采用外部事后方法来实现的(例如,CNN的梯度)。相反,“白箱”架构通过设计本身就具有可解释性,在模型训练过程中,解释性可以作为副产品来实现。例如,在线性回归中,通过解线性方程组得到的系数可以直接用来为输入特征分配权重。然而,虽然在线性回归的情况下,特征重要性是直接明了的,但在更复杂的任务和先进架构中,考虑到输入和输出之间高度非线性的关系,因此需要外部的可解释性方法来理解和验证哪些特征对预测有最大影响。也就是说,使用线性回归进行计算机视觉并不是一种可行的方法。
评估解释性至关重要,以确保从模型中得到的洞察以及通过可解释性接口向最终用户呈现的方式是有意义、实用和可信的。XAI方法的种类日益增多,这就需要系统化的评估和比较,摆脱主观的“眼见为实”方法。为了解决这一挑战,研究人员设计了许多算法和基于用户的评估技术,并制定了框架和分类法,用于捕捉解释的主观和客观的定量和定性属性。可解释性是一个光谱,而非二元特征,其有效性可以通过评估某些属性的履行程度来量化。XAI评估方法的一种分类方式是通过所谓的Co-12属性,根据内容、呈现和用户维度进行分组,汇总如表1所示。
表 1. 用于评估的 12 个共同可解释性质量属性
在更细粒度的层面上,XAI的定量评估方法可以包括一些指标,如忠实度、稳定性、保真度和明确性,这些指标使得我们能够衡量解释的内在质量。忠实度衡量解释与模型行为的一致性,关注所选特征在目标类别预测中的重要性。Qi等人(2020年)展示了一个基于积分梯度的特征重要性分析方法,强调了生成忠实模型行为表示的重要性。
稳定性指的是相似输入之间解释的一致性。Ribeiro等人(2016年)在LIME研究中强调了稳定性的重要性,可靠的解释应该不会因为输入的轻微变化而发生剧烈变化。保真度反映了解释与模型决策过程的准确性。Doshi-Velez和Kim(2017年)在他们的可解释机器学习框架中强调了保真度,认为高保真度对可信赖的AI系统至关重要。明确性涉及人类理解解释的难易程度。Alvarez-Melis和Jaakkola(2018年)通过自解释神经网络(SENN)讨论了可解释性的稳健性,这些网络力求在稳定性和忠实度的基础上提供明确性。
为了将这些概念联系起来,表1中所描述的正确性属性指的是解释与模型行为之间的忠实度,表示解释反映“真实”行为的程度。这一属性与模型的预测准确性不同,而是描述XAI方法如何反映模型的功能。理想情况下,解释应该“仅仅是事实”,因此高正确性是期望的。通过删除评分可以计算忠实度,该评分通过计算表示两个特征重要性函数之间差异的曲线下的标准化面积来获得:一个是通过逐步删除特征(从最不相关的特征开始——LeRF)并在每一步评估模型性能得到的,另一个是删除顺序随机(随机顺序——RaO)的。计算这两种曲线的点从提供完整图像给模型开始,然后逐步删除被归因方法评估的重要性低于某个阈值的像素。较高的评分意味着即使删除冗余特征,模型仍能更好地保留重要信息(方程1)。
方程1. 通过删除进行特征重要性评估的忠实度指标计算
评估忠实度的另一种方法是通过插入计算特征重要性,类似于上述方法,但通过逐渐向模型展示由归因方法识别出的最相关的图像区域。这里的关键思想是:加入重要特征并观察发生了什么。在演示中,我们将探讨定性和定量两种方法来评估模型解释。
在精细分类任务中,例如区分不同类型的车辆或识别鸟类物种,视觉外观的细微变化可以显著影响模型预测。确定哪些特征对模型的决策过程最为重要,可以帮助揭示错误分类问题,从而优化任务模型。为了展示如何有效应用可解释性来提高对深度学习视觉模型的理解,我们将考虑一个鸟类分类的使用案例。鸟类种群是重要的生物多样性指标,因此收集物种的可靠数据以及它们在不同环境背景下的相互作用对生态学家非常重要。此外,自动化鸟类监测系统也能帮助风力发电场生产商,因为建造阶段需要进行初步的碰撞风险评估和缓解。本部分将展示如何应用XAI方法和指标来增强鸟类物种分类中的模型可解释性。
下图(图8)展示了使用在ImageNet上预训练并在Caltech-UCSD Birds-200-2011数据集上微调的ResNet-50进行精细图像分类的特征重要性分析结果。对于所选特征的忠实度定性评估,使用了引导Grad-CAM方法。定量XAI指标包括通过删除计算的忠实度(FTHN),较高的值表示更好的忠实度,并且还包括反映非稳健性和不稳定性程度的指标,如最大敏感性(SENS)和不忠实度(INFD),其中较低的值更受欢迎。后者的指标是基于扰动的,假设解释应保持与输入数据或模型本身的微小变化一致 。
图 8. 细粒度图像分类中的可解释性度量评估
在对独立的北方红雀测试图像进行评估时,我们注意到,在初始迭代期间,模型得分的轻微变化随后被最关键特征逐步纳入,最终导致得分的急剧上升(图8)。这些结果暗示了两个关于模型忠实度的关键解释,与所评估的XAI方法相关。首先,使用引导GradCAM进行的基于归因的可解释性对模型来说是忠实的,因为添加被识别为冗余的区域(90%的LeRF,x轴)对模型得分几乎没有影响(预测概率得分变化小于0.1)。这意味着在进行预测时,模型并没有依赖这些区域,这与剩余的10%最相关特征的情况形成对比。另一个类别——稳健性——指的是模型对小输入变化的抗干扰能力。在这里,我们可以看到,原始图像约90%的变化对整体模型性能的影响很小,即使大部分像素发生了变化,目标概率得分仍然保持不变,这表明模型在目标类别预测上的稳定性和泛化能力。
为了进一步评估模型的稳健性,我们计算了额外的指标,如敏感性和不忠实度。结果表明,尽管模型对输入的轻微扰动不太敏感(SENS=0.21),但对最重要区域的变化可能会影响模型的决策,特别是对于前10%的特征(图8)。为了对我们模型的解释的敏感性进行更深入的评估,我们可以进一步扩展可解释性方法的列表,例如使用积分梯度和SHAP。此外,为了评估模型对对抗性攻击的抵抗力,接下来的步骤可能包括量化进一步的稳健性指标。
本文全面回顾了过去几十年中发布的科学文献,涵盖了深度学习和计算机视觉的关键里程碑,这些里程碑为XAI领域的研究奠定了基础。反思该领域的近期技术进展和前景,我们讨论了XAI在新兴AI监管框架和负责任AI实践下的潜在影响,预测可解释性在未来将变得更加重要。此外,我们审视了应用领域,并探讨了利益相关者群体及其需求,提供了实际建议,阐明XAI如何解决当前挑战和需求,以创建可靠且值得信赖的AI系统。我们还介绍了与可解释性相关的基本概念和分类法,常用的视觉方法,以及用于评估事后解释的定性和定量指标。最后,为了展示如何将可解释性应用于增强对深度学习模型的理解,最后一部分介绍了一个案例,其中XAI方法和指标被有效应用于精细分类任务,以识别影响模型决策的相关特征,并执行定量和定性评估,以验证根据模型推理得出的解释质量。
来源:老胡科学一点号