QUICK REVIEW

[论文解读] Regularizing Black-box Models for Improved Interpretability

Gregory Plumb, Maruan Al-Shedivat|arXiv (Cornell University)|Feb 18, 2019

Explainable Artificial Intelligence (XAI)参考文献 36被引用 37

一句话总结

ExpO 在训练过程中对黑箱模型进行正则化，以提高局部解释的保真度和稳定性，从而在不牺牲太多准确性的情况下产生更易解释的事后解释，并通过一项用户研究得到验证。

ABSTRACT

Most of the work on interpretable machine learning has focused on designing either inherently interpretable models, which typically trade-off accuracy for interpretability, or post-hoc explanation systems, whose explanation quality can be unpredictable. Our method, ExpO, is a hybridization of these approaches that regularizes a model for explanation quality at training time. Importantly, these regularizers are differentiable, model agnostic, and require no domain knowledge to define. We demonstrate that post-hoc explanations for ExpO-regularized models have better explanation quality, as measured by the common fidelity and stability metrics. We verify that improving these metrics leads to significantly more useful explanations with a user study on a realistic task.

研究动机与目标

引入 ExpO-Fidelity，一种可微分、与模型无关的正则化项，用以提升局部解释的保真度。
在不约束模型族的前提下，允许在准确性和可解释性之间进行插值。
使用事后解释工具（LIME、MAPLE）在回归和分类任务上对 ExpO 进行经验评估。
证明 ExpO 提升了解释质量，且可略微改善或保持预测准确性。
通过一项人类用户研究验证可解释性提升的实际有用性。

提出的方法

定义一个可解释性正则化的目标函数，以最小化：(L(f, x_i, y_i) + gamma R(f, N_x_i^{reg})).
将 ExpO-Fidelity 用作一个可微分、基于邻域的正则化项，通过对来自 N_x^{reg} 的样本进行局部线性拟合来近似局部解释的保真度（算法 1）。
提供更快的变体 ExpO-1D-Fidelity，通过扰动单个特征维度来以更低成本近似保真度。
使用标准的 SGD/Adam，在增广损失上训练模型，以获得 ExpO-正则化模型。
使用点保真度（PF）、邻域保真度（NF）以及在 LIME 和 MAPLE 解释下的稳定性指标进行评估。
与通常训练的基线模型进行比较，以评估预测准确性和解释质量的变化。

实验结果

研究问题

RQ1ExpO-Fidelity 是否提升了对黑箱模型的事后解释的保真度和稳定性？
RQ2ExpO 正则化在提升可解释性的同时，是否能够维持或提高预测准确性？
RQ3ExpO-正则化的解释是否能从训练点推广到测试点？
RQ4人类用户在现实任务中是否发现来自 ExpO-正则化模型的解释更有用？

主要发现

ExpO-Fidelity 在多数情况下，解释性指标提升超过25%，在若干情形甚至超过50%。
与未正则化相比，ExpO 正则化的模型在测试准确率通常相似或略有提升。
ExpO-1D-Fidelity 同样提升了解释性指标，且平均准确性提升较小。
对 ExpO 正则化模型的事后解释（LIME、MAPLE）更简单且对测试点的模型行为更具保真度。
一项用户研究显示，参与者使用 ExpO 解释完成任务更少步骤，且感知更有用、与预期的模型行为一致性更好。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。