摘要:人工智能发展势头迅猛,催生出愈发繁杂的深度学习模型,此类模型往往犹如不透明的“黑箱”,其决策过程的透明度极为有限。这一缺乏可解释性的情形带来了严峻的挑战,特别是在高风险应用领域中,理解模型输出背后的原理与输出本身具有同等重要的地位。本研究聚焦于人工智能系统对可
人工智能发展势头迅猛,催生出愈发繁杂的深度学习模型,此类模型往往犹如不透明的“黑箱”,其决策过程的透明度极为有限。这一缺乏可解释性的情形带来了严峻的挑战,特别是在高风险应用领域中,理解模型输出背后的原理与输出本身具有同等重要的地位。本研究聚焦于人工智能系统对可解释性的急切需求,着重强调其在培育信任、确保责任以及推动关键任务领域合理布局方面所发挥的作用。
为应对深度学习中的可解释性难题,我们引入了 AryaXAI 团队研发的创新技术 DLBacktrace,以阐明众多领域的模型决策,涵盖简单多层感知机(MLPs)、卷积神经网络(CNNs)、大型语言模型(LLMs)、计算机视觉模型等。我们对 DLBacktrace 算法予以了全面的介绍,并给出了基准测试结果,凭借不同任务的指标,将其性能与 SHAP、LIME、GradCAM、Integrated Gradients、SmoothGrad 和 Attention Rollout 等现有的可解释性方法进行对照。所提出的 DLBacktrace 技术与 PyTorch 和 TensorFlow 中构建的各类模型架构相互兼容,支持 Llama 3.2 等模型、其他 NLP 架构(如 BERT 和 LSTMs)、ResNet 和 U-Net 等计算机视觉模型,以及用于表格数据的自定义深度神经网络(DNN)模型。这种灵活性充分展现了 DLBacktrace 在提升各类应用中模型透明度方面的适应性与有效性。
研究问题: 这篇文章旨在解决深度学习模型的可解释性问题。随着人工智能技术的快速发展,深度学习模型变得越来越复杂且常常作为“黑箱”运作,缺乏对其决策过程的透明度。这种缺乏可解释性在高风险应用中带来了显著挑战,特别是在需要理解模型输出背后的理由的应用中。研究难点: 该问题的研究难点包括:现有解释性方法在处理复杂数据类型(如图像和文本)时存在局限性;许多现有方法依赖于外部模型或基线,导致解释结果的不确定性和不一致性;实时环境中生成解释的需求增加了计算负担。相关工作: 相关工作包括局部可解释模型无关解释(LIME)、SHapley Additive exPlanations(SHAP)、Grad-CAM、Integrated Gradients、SmoothGrad和Attention Rollout等方法。这些方法在不同数据类型和应用场景中表现出色,但各自存在局限性。这篇论文提出了DLBacktrace,一种模型无关的深度学习可解释性技术。具体来说:
基本原理: DLBacktrace通过从输出到输入追踪相关性来分配相关性分数,揭示特征重要性、信息流和预测中的偏差。该方法独立于辅助模型或基线,确保在不同架构和数据类型中提供确定性、一致的解释。算法描述:默认模式: 在默认模式下,每个单元分配一个相关性分数,并按比例分配给正负组件。相关性通过构建模型权重和架构的图并广度优先传播来计算。对比模式: 在对比模式下,每个单元分配双重相关性,分别分配给正负组件。这种方法有助于分别分析支持和削弱影响,增强解释的可信度和可靠性。注意力层的相关性传播: 对于基于注意力机制的模型,DLBacktrace扩展了算法以支持注意力层。通过计算注意力机制中各部分的相关性,提供了更详细的解释。表格数据:DLBacktrace在MPRT指标上优于LIME和SHAP,表明其解释性和鲁棒性更强。然而,DLBacktrace的计算复杂性较高,反映了其细粒度和高熵的解释。图像数据:DLBacktrace在忠实度相关性、最大敏感性和像素翻转度量上均优于Grad-CAM、Vanilla Gradient、Smooth Grad和Integrated Gradient,显示出其在图像分类任务中的稳定性和可靠性。文本数据:DLBacktrace在LeRF AUC和Delta AUC指标上表现平衡,展示了其在区分相关和不相关特征方面的潜力。尽管Integrated Gradients在某些方面表现最佳,但DLBacktrace仍显示出其作为竞争方法的潜力。这篇论文介绍了DLBacktrace,一种新的深度学习可解释性方法,通过从输出回溯到输入追踪相关性,提供了清晰且一致的特征重要性和信息流洞察。与现有方法相比,DLBacktrace在鲁棒性和准确性方面表现更好,特别适用于需要高透明度的领域,如金融、医疗保健和监管合规。未来的研究将致力于扩展DLBacktrace的应用范围,改进相关性评分,并探索其在特定模型改进中的应用。
DLBacktrace的提出为深度学习的可解释性研究提供了新的视角和方法,具有重要的理论和实际意义。
来源:宁教授网络空间元宇宙