Skip to main content
QUICK REVIEW

[论文解读] What Do You See? Evaluation of Explainable Artificial Intelligence (XAI) Interpretability through Neural Backdoors

Yi‐Shan Lin, Wen‐Chuan Lee|arXiv (Cornell University)|Sep 22, 2020
Explainable Artificial Intelligence (XAI)参考文献 42被引用 27
一句话总结

本文提出了一种新颖的、自动化的可解释人工智能(XAI)可解释性评估框架,利用神经后门作为真实标签。通过在后门模型中嵌入触发器,作者表明,仅模型无关的XAI方法(如LIME和GGCAM)能可靠地检测到完整的触发器区域,而局部解释方法则失败,揭示了XAI在模型调试中的鲁棒性和可靠性方面存在关键局限。

ABSTRACT

EXplainable AI (XAI) methods have been proposed to interpret how a deep neural network predicts inputs through model saliency explanations that highlight the parts of the inputs deemed important to arrive a decision at a specific target. However, it remains challenging to quantify correctness of their interpretability as current evaluation approaches either require subjective input from humans or incur high computation cost with automated evaluation. In this paper, we propose backdoor trigger patterns--hidden malicious functionalities that cause misclassification--to automate the evaluation of saliency explanations. Our key observation is that triggers provide ground truth for inputs to evaluate whether the regions identified by an XAI method are truly relevant to its output. Since backdoor triggers are the most important features that cause deliberate misclassification, a robust XAI method should reveal their presence at inference time. We introduce three complementary metrics for systematic evaluation of explanations that an XAI method generates and evaluate seven state-of-the-art model-free and model-specific posthoc methods through 36 models trojaned with specifically crafted triggers using color, shape, texture, location, and size. We discovered six methods that use local explanation and feature relevance fail to completely highlight trigger regions, and only a model-free approach can uncover the entire trigger region.

研究动机与目标

  • 为解决由于依赖主观人工判断或高计算成本方法而导致的XAI可解释性缺乏客观、自动化评估的问题。
  • 识别现有XAI方法的局限性,特别是其无法检测导致故意误分类的后门触发器的问题。
  • 利用具有多样化触发器的后门模型作为真实标签,开发一种系统化、自动化的显著性解释正确性评估框架。
  • 评估XAI方法在对抗性设置下的鲁棒性和可靠性,其中触发器被设计为难以察觉但具有显著影响。
  • 证明当前的XAI方法,尤其是基于局部解释和特征重要性的方法,无法突出显示完整的触发器区域,从而削弱了对模型调试的信任。

提出的方法

  • 通过在颜色、形状、纹理、大小和位置等方面的变化,将神经后门(触发器)注入36个深度学习模型,以创建受控的测试案例。
  • 以触发器的存在作为真实标签,评估XAI方法是否能正确识别模型预测中最相关的输入区域。
  • 引入三种定量指标:交并比(IOU)、相关性比率(RR)和相关性距离(RD),用于衡量解释的准确性和完整性。
  • 在所有后门模型中应用七种最先进的XAI方法——BP、GBP、GCAM、GGCAM、OCC、FA和LIME,以比较性能。
  • 使用边缘检测(Canny算法)定位显著区域,并为检测到的触发器区域绘制边界框以供评估。
  • 通过测量不同XAI方法和模型架构生成显著性图所需的时间,评估计算效率。

实验结果

研究问题

  • RQ1XAI方法能否可靠地检测作为可解释性评估真实标签的嵌入输入图像中的后门触发器?
  • RQ2与模型无关的方法相比,基于局部解释的XAI方法是否无法识别完整的触发器区域?
  • RQ3触发器特征(如大小、颜色、位置、纹理)的变化如何影响不同XAI方法的性能?
  • RQ4基于前向传播和基于反向传播的XAI方法在检测触发器时的计算成本有何差异?
  • RQ5当触发器部分被遮挡或扰动时,XAI方法的鲁棒性在多大程度上仍然保持?

主要发现

  • 七种XAI方法中的六种——特别是依赖局部解释和特征重要性的方法——即使在触发器视觉上明显的情况下,也无法完全突出显示触发器区域。
  • 只有模型无关方法LIME和混合方法GGCAM在大多数情况下成功检测到完整的触发器区域,且LIME在相关性比率(RR)得分上表现最高。
  • 遮挡(OCC)和特征掩蔽(FA)在触发器位置固定时表现更优,因其依赖预定义的空间分组,但在随机放置触发器时失效。
  • 基于前向传播的XAI方法(OCC、FA、LIME)的计算成本显著高于基于反向传播的方法(BP、GBP、GCAM、GGCAM),其中FA在VGG16上生成每张显著性图耗时超过75秒,成本最高。
  • GGCAM方法的性能可与GBP和GCAM之和相媲美,表明其有效融合了多种技术生成的显著性图。
  • 即使将触发器像素替换为原始图像内容,误分类仍持续存在,表明基于XAI的输入净化在后门防御中仍具挑战性,原因在于触发器检测不完整。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。