Skip to main content
QUICK REVIEW

[论文解读] Regularizing Black-box Models for Improved Interpretability

Gregory Plumb, Maruan Al-Shedivat|arXiv (Cornell University)|Feb 18, 2019
Explainable Artificial Intelligence (XAI)参考文献 36被引用 37
一句话总结

ExpO 在训练过程中对黑箱模型进行正则化,以提高局部解释的保真度和稳定性,从而在不牺牲太多准确性的情况下产生更易解释的事后解释,并通过一项用户研究得到验证。

ABSTRACT

Most of the work on interpretable machine learning has focused on designing either inherently interpretable models, which typically trade-off accuracy for interpretability, or post-hoc explanation systems, whose explanation quality can be unpredictable. Our method, ExpO, is a hybridization of these approaches that regularizes a model for explanation quality at training time. Importantly, these regularizers are differentiable, model agnostic, and require no domain knowledge to define. We demonstrate that post-hoc explanations for ExpO-regularized models have better explanation quality, as measured by the common fidelity and stability metrics. We verify that improving these metrics leads to significantly more useful explanations with a user study on a realistic task.

研究动机与目标

  • 引入 ExpO-Fidelity,一种可微分、与模型无关的正则化项,用以提升局部解释的保真度。
  • 在不约束模型族的前提下,允许在准确性和可解释性之间进行插值。
  • 使用事后解释工具(LIME、MAPLE)在回归和分类任务上对 ExpO 进行经验评估。
  • 证明 ExpO 提升了解释质量,且可略微改善或保持预测准确性。
  • 通过一项人类用户研究验证可解释性提升的实际有用性。

提出的方法

  • 定义一个可解释性正则化的目标函数,以最小化:(L(f, x_i, y_i) + gamma R(f, N_x_i^{reg})).
  • 将 ExpO-Fidelity 用作一个可微分、基于邻域的正则化项,通过对来自 N_x^{reg} 的样本进行局部线性拟合来近似局部解释的保真度(算法 1)。
  • 提供更快的变体 ExpO-1D-Fidelity,通过扰动单个特征维度来以更低成本近似保真度。
  • 使用标准的 SGD/Adam,在增广损失上训练模型,以获得 ExpO-正则化模型。
  • 使用点保真度(PF)、邻域保真度(NF)以及在 LIME 和 MAPLE 解释下的稳定性指标进行评估。
  • 与通常训练的基线模型进行比较,以评估预测准确性和解释质量的变化。

实验结果

研究问题

  • RQ1ExpO-Fidelity 是否提升了对黑箱模型的事后解释的保真度和稳定性?
  • RQ2ExpO 正则化在提升可解释性的同时,是否能够维持或提高预测准确性?
  • RQ3ExpO-正则化的解释是否能从训练点推广到测试点?
  • RQ4人类用户在现实任务中是否发现来自 ExpO-正则化模型的解释更有用?

主要发现

  • ExpO-Fidelity 在多数情况下,解释性指标提升超过25%,在若干情形甚至超过50%。
  • 与未正则化相比,ExpO 正则化的模型在测试准确率通常相似或略有提升。
  • ExpO-1D-Fidelity 同样提升了解释性指标,且平均准确性提升较小。
  • 对 ExpO 正则化模型的事后解释(LIME、MAPLE)更简单且对测试点的模型行为更具保真度。
  • 一项用户研究显示,参与者使用 ExpO 解释完成任务更少步骤,且感知更有用、与预期的模型行为一致性更好。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。