[论文解读] On the (In)fidelity and Sensitivity for Explanations
这篇论文形式化了对黑盒模型显著性解释的不忠实性目标,推导在不同扰动下的最优解释,并显示基于平滑的方法可以同时降低敏感性和不忠实性,通过实验进行验证。
We consider objective evaluation measures of saliency explanations for complex black-box machine learning models. We propose simple robust variants of two notions that have been considered in recent literature: (in)fidelity, and sensitivity. We analyze optimal explanations with respect to both these measures, and while the optimal explanation for sensitivity is a vacuous constant explanation, the optimal explanation for infidelity is a novel combination of two popular explanation methods. By varying the perturbation distribution that defines infidelity, we obtain novel explanations by optimizing infidelity, which we show to out-perform existing explanations in both quantitative and qualitative measurements. Another salient question given these measures is how to modify any given explanation to have better values with respect to these measures. We propose a simple modification based on lowering sensitivity, and moreover show that when done appropriately, we could simultaneously improve both sensitivity as well as fidelity.
研究动机与目标
- 推动对黑箱模型的显著性解释进行客观评估。
- 定义并分析一个鲁棒的不忠实性度量,用以量化在显著输入扰动下解释对预测变化的捕捉程度。
- 将不忠实性与现有解释联系起来,并推导基于扰动的新解释。
- 提出基于平滑的对解释的修改,以同时降低敏感性和不忠实性,并进行实际验证。
提出的方法
- 将解释不忠实性定义为扰动 I 下,扰动加权的解释与实际函数变化之间的期望平方差。
- 表征通过扰动分布 μI 和 Integrated Gradients (IG) 的积分,来最小化不忠实性的最优解释 Φ*。
- 表明在特定扰动下,许多现有解释(IG, DeepLIFT, LRP)是不忠实性最优解释的特例;为其他扰动(例如 noisy baseline、square removal)推导新的解释。
- 提出核平滑(Φk),以获得更平滑的解释,与 Smooth-Grad 相关,并给出在平滑后不忠实性改善的条件。
- 引入一个鲁棒且适合 Monte Carlo 的最大敏感性度量,并通过平滑将其与保真度相关联,将对抗性训练作为可选的增强手段。
实验结果
研究问题
- RQ1有哪些客观度量可以量化显著性解释对黑箱预测器的忠实度?
- RQ2不同扰动方案在不忠实性目标下如何影响最优解释,我们能否从这些扰动设计出新颖的解释?
- RQ3简单的平滑或训练策略能否在不牺牲保真性的前提下同时降低解释的敏感性和不忠实性?
- RQ4在不忠实性框架下,现有解释的表现如何,平滑性的改进是否与人类判断相关?
主要发现
- 最优的不忠实性最小化解释可以表示为使用扰动诱导核的平滑化的 Integrated Gradients 风格组合。
- 在特定扰动下,许多现有解释(IG, DeepLIFT, LRP)成为不忠实性最优解释的特例;新的扰动产生新的解释。
- 基于平滑的调整(例如 Smooth-Grad)在大多数情况下同时降低敏感性与不忠实性,并能改善定性显著性图。
- 放松的、鲁棒的扰动(例如 noisy baseline、square removal)会得到不忠实性更低、可视化更忠实的解释,经人类评估验证。
- 对抗性训练也有助于同时降低敏感性和不忠实性,提示在模型层面实现更忠实解释的策略。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。