[论文解读] Regularizing Black-box Models for Improved Interpretability
ExpO 在训练过程中对黑箱模型进行正则化,以提高局部解释的保真度和稳定性,从而在不牺牲太多准确性的情况下产生更易解释的事后解释,并通过一项用户研究得到验证。
Most of the work on interpretable machine learning has focused on designing either inherently interpretable models, which typically trade-off accuracy for interpretability, or post-hoc explanation systems, whose explanation quality can be unpredictable. Our method, ExpO, is a hybridization of these approaches that regularizes a model for explanation quality at training time. Importantly, these regularizers are differentiable, model agnostic, and require no domain knowledge to define. We demonstrate that post-hoc explanations for ExpO-regularized models have better explanation quality, as measured by the common fidelity and stability metrics. We verify that improving these metrics leads to significantly more useful explanations with a user study on a realistic task.
研究动机与目标
- 引入 ExpO-Fidelity,一种可微分、与模型无关的正则化项,用以提升局部解释的保真度。
- 在不约束模型族的前提下,允许在准确性和可解释性之间进行插值。
- 使用事后解释工具(LIME、MAPLE)在回归和分类任务上对 ExpO 进行经验评估。
- 证明 ExpO 提升了解释质量,且可略微改善或保持预测准确性。
- 通过一项人类用户研究验证可解释性提升的实际有用性。
提出的方法
- 定义一个可解释性正则化的目标函数,以最小化:(L(f, x_i, y_i) + gamma R(f, N_x_i^{reg})).
- 将 ExpO-Fidelity 用作一个可微分、基于邻域的正则化项,通过对来自 N_x^{reg} 的样本进行局部线性拟合来近似局部解释的保真度(算法 1)。
- 提供更快的变体 ExpO-1D-Fidelity,通过扰动单个特征维度来以更低成本近似保真度。
- 使用标准的 SGD/Adam,在增广损失上训练模型,以获得 ExpO-正则化模型。
- 使用点保真度(PF)、邻域保真度(NF)以及在 LIME 和 MAPLE 解释下的稳定性指标进行评估。
- 与通常训练的基线模型进行比较,以评估预测准确性和解释质量的变化。
实验结果
研究问题
- RQ1ExpO-Fidelity 是否提升了对黑箱模型的事后解释的保真度和稳定性?
- RQ2ExpO 正则化在提升可解释性的同时,是否能够维持或提高预测准确性?
- RQ3ExpO-正则化的解释是否能从训练点推广到测试点?
- RQ4人类用户在现实任务中是否发现来自 ExpO-正则化模型的解释更有用?
主要发现
- ExpO-Fidelity 在多数情况下,解释性指标提升超过25%,在若干情形甚至超过50%。
- 与未正则化相比,ExpO 正则化的模型在测试准确率通常相似或略有提升。
- ExpO-1D-Fidelity 同样提升了解释性指标,且平均准确性提升较小。
- 对 ExpO 正则化模型的事后解释(LIME、MAPLE)更简单且对测试点的模型行为更具保真度。
- 一项用户研究显示,参与者使用 ExpO 解释完成任务更少步骤,且感知更有用、与预期的模型行为一致性更好。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。