Skip to main content
QUICK REVIEW

[论文解读] On the Robustness of Interpretability Methods

David Alvarez-Melis, Tommi Jaakkola|arXiv (Cornell University)|Jun 21, 2018
Explainable Artificial Intelligence (XAI)参考文献 13被引用 76
一句话总结

本文定义了基于局部 Lipschitz 的解释鲁棒性,评估了流行的可解释性方法(LIME、SHAP、显著性等)在不同数据集和模型上的表现,发现对小的输入扰动普遍存在不稳定性,并讨论在解释中强化鲁棒性的方法。

ABSTRACT

We argue that robustness of explanations---i.e., that similar inputs should give rise to similar explanations---is a key desideratum for interpretability. We introduce metrics to quantify robustness and demonstrate that current methods do not perform well according to these metrics. Finally, we propose ways that robustness can be enforced on existing interpretability approaches.

研究动机与目标

  • 将鲁棒性作为可解释性的重要标准,要求解释在输入微小变化下保持稳定。
  • 通过局部 Lipschitz 连续性和实用的基于样本的近似来形式化解释的局部鲁棒性。
  • 在多样化的数据集和模型上评估流行的可解释性方法(LIME、SHAP、Saliency、Gradient*Input、Integrated Gradients、LRP、Occlusion)。
  • 在真实模型(MLP/CNN/ResNet)和简单数据集上展示解释在小扰动下的不稳定性。
  • 讨论在现有方法中强化鲁棒性或设计鲁棒可解释性方法的策略。

提出的方法

  • 在输入点周围定义局部 Lipschitz 连续性,以量化解释的稳定性。
  • 提出两种局部鲁棒性的估计量:(1) 无梯度、基于邻域的比率,最大化 ||f(x)-f(x')||/||x-x'||,扰动半径为 ε;(2) 在固定测试集上的离散、基于样本的版本。
  • 在固定的函数评估预算下使用贝叶斯优化来估计解释的鲁棒性常数 L。
  • 比较多种可解释性方法(LIME、SHAP、Saliency、Gradient*Input、Integrated Gradients、Layer-wise Relevance Propagation、Occlusion)在各种数据集和模型上的表现。
  • 使用分类和回归任务的混合,包括 UCI 数据集、Compas、MNIST (CNN) 和 ImageNet (ResNet)。

实验结果

研究问题

  • RQ1流行的可解释性方法是否在模型预测保持稳定的同时,对小的输入扰动具有鲁棒性的解释?
  • RQ2就局部鲁棒性而言,基于梯度的解释与基于扰动的方法有何比较?
  • RQ3鲁棒性如何随数据集、模型类型(黑盒与可梯度)以及输入模态(表格、数字、自然图像)而变化?
  • RQ4解释的鲁棒性是否可以得到改进或强化,哪些策略看起来有前景?
  • RQ5在给定黑盒解释的情况下,哪些实用的估计量能够可靠地量化局部鲁棒性?

主要发现

  • 大多数解释方法对输入的微小变化并不鲁棒,尤其是对于复杂模型。
  • 模型无关的基于扰动的方法(如 LIME、SHAP)往往比基于梯度的方法更不稳定。
  • 对 MNIST 数字进行小的高斯噪声扰动,即使预测不变,解释也可能显著不同。
  • 对于 MNIST 上的 CNN,局部邻域中的解释差异显著;最坏情形的扰动可以使局部 Lipschitz 度量达到最大。
  • 在 ImageNet 的 ResNet 上,几乎相同的扰动图像也可能导致解释差异很大,尽管预测几乎相同。
  • 本文提供一个框架和示例(如 L 与 L 值)来量化并比较不同方法的鲁棒性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。