[论文解读] Towards Robust Interpretability with Self-Explaining Neural Networks
本文提出自解释神经网络(Senn),通过可解释的基础概念和局部性驱动的正则化将可解释性嵌入模型,在训练过程中强制产生显式、可信且稳定的解释。
Most recent work on interpretability of complex machine learning models has focused on estimating $ extit{a posteriori}$ explanations for previously trained models around specific predictions. $ extit{Self-explaining}$ models where interpretability plays a key role already during learning have received much less attention. We propose three desiderata for explanations in general -- explicitness, faithfulness, and stability -- and show that existing methods do not satisfy them. In response, we design self-explaining models in stages, progressively generalizing linear classifiers to complex yet architecturally explicit models. Faithfulness and stability are enforced via regularization specifically tailored to such models. Experimental results across various benchmark datasets show that our framework offers a promising direction for reconciling model complexity and interpretability.
研究动机与目标
- 为解释定义三个核心准则:显性(明确性)、忠实性和稳定性。
- 开发在架构上可解释且在学习得到的基础上局部线性化的自解释模型。
- 引入正则化以在保持预测性能的同时实现忠实、稳定的解释。
- 通过自编码器学习可解释的基础概念并以原型进行锚定,从而提供人类可理解的解释。
提出的方法
- 将线性模型推广为 f(x)=theta(x)^T h(x),其中 theta 依赖于输入 x,h(x) 是可解释的基础概念。
- 引入对项 theta_i(x) h_i(x) 的聚合函数 g,具备以下属性:单调、可加,以及非混搭交互(P1-P5)。
- 通过在邻域内强制局部关系来施加局部稳定性:f 的梯度在邻域内近似于 theta(x0)(L_theta 正则化)。
- 将 h(x) 作为原始输入或通过自编码器学习的更高层概念,并进行 grounding 与 多样性 约束(L_h)以及基于原型的锚定。
- 端到端训练,使用组合损失:L_y + lambda L_theta + xi L_h(以及其他正则化项)。
- 可选地用神经网络来实现 theta,以在保留概念层可解释性的同时保持较高的建模能力。
实验结果
研究问题
- RQ1如何设计在构造上就具备显式、忠实且稳定解释的模型?
- RQ2我们能否通过输入相关系数和可解释的基础概念将线性可解释性扩展到复杂模型?
- RQ3将梯度正则化与基于概念的解释对齐模型敏感度,是否在不牺牲精度的前提下提高鲁棒性?
- RQ4基于自编码器、可锚定性和原型锚定的概念作为可解释单元在解释预测方面有多大用处?
主要发现
- 自解释模型的解释通过学习到的概念及其相关性分数立即可解释。
- 所提出的梯度正则化 L_theta 提高了解释的稳定性和忠实性,权衡由 lambda 控制。
- 通过原型锚定和自编码器学习来Grounding 概念,提供有意义、便于人类理解的解释。
- 在 MNIST、UCI 和 Compas 数据集上,Senn 在准确率上与非可解释基线相当,同时提供稳健的概念型解释。
- 在对输入扰动的解释鲁棒性方面,Senn 优于事后解释方法(LIME、SHAP、遮挡等)。
- 该框架支持端到端训练,并灵活地将高层概念融入,超越原始特征。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。