[论文解读] Learning Global Additive Explanations for Neural Nets Using Model Distillation
本文提出一种利用模型蒸馏学习神经网络全局加法解释的方法,能够捕捉超越局部预测的模型整体行为特征。该方法可提供可解释的、定量的洞察,揭示输入特征在整个数据集上对模型输出的影响机制。
Interpretability has largely focused on local explanations, i.e. explaining why a model made a particular prediction for a sample. These explanations are appealing due to their simplicity and local fidelity. However, they do not provide information about the general behavior of the model. We propose to leverage model distillation to learn global additive explanations that describe the relationship between input features and model predictions. These global explanations take the form of feature shapes, which are more expressive than feature attributions. Through careful experimentation, we show qualitatively and quantitatively that global additive explanations are able to describe model behavior and yield insights about models such as neural nets. A visualization of our approach applied to a neural net as it is trained is available at this https URL.
研究动机与目标
- 解决局部解释在捕捉神经网络整体行为方面的局限性。
- 开发一种方法,学习描述整个输入空间中特征贡献的全局、加法解释。
- 利用模型蒸馏,将复杂模型的知识迁移至更简单、可解释的代理模型。
- 生成特征形状——其表达力强于显著性图——以揭示输入与预测之间的一致关系。
- 通过全局可解释性提供关于神经网络行为的定性与定量洞察。
提出的方法
- 利用模型蒸馏训练一个代理模型,使其模仿已训练神经网络的预测结果。
- 通过优化特征层面的贡献,训练代理模型输出加法解释。
- 利用蒸馏后的代理模型学习代表每个输入特征全局影响的特征形状。
- 通过在多样化输入上对齐代理模型与原始模型输出,确保解释的保真度。
- 可视化所得特征形状,以理解特征如何共同影响预测结果。
- 在训练过程中应用该方法,观察特征重要性随时间的演变。
实验结果
研究问题
- RQ1模型蒸馏能否有效生成反映神经网络真实行为的全局加法解释?
- RQ2所学习的特征形状在捕捉模型行为方面与局部显著性图相比有何差异?
- RQ3全局解释在多大程度上能揭示模型决策中的一致且可解释的模式?
- RQ4该方法在不同数据集和模型架构上的表现如何?
- RQ5训练过程中特征形状的演变能否为学习动态提供洞察?
主要发现
- 通过模型蒸馏获得的全局加法解释,成功捕捉了神经网络在多样化输入下的整体行为。
- 特征形状比局部显著性图具有更强的表达力和一致性,揭示了特征与预测之间稳定的关联关系。
- 该方法可可视化特征重要性在训练过程中的演变,为学习动态提供洞察。
- 定量评估显示,代理模型的解释与原始模型的行为高度一致。
- 该方法提供了既具有定性意义又具备定量可靠性的可解释全局洞察。
- 该方法在不同数据集和架构上均表现良好,展现出鲁棒性与可扩展性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。