[论文解读] A Framework to Learn with Interpretation
FLINT 是一种新颖的框架,通过从中间隐藏层提取的高层属性函数,联合学习深度神经网络分类器和可解释的解释模型。通过施加稀疏性和基于熵的简洁性约束,它在最小精度损失下实现了局部和全局可解释性,在 MNIST、Fashion-MNIST、CIFAR10 和 QuickDraw 等图像分类任务中优于当前最先进方法。
To tackle interpretability in deep learning, we present a novel framework to jointly learn a predictive model and its associated interpretation model. The interpreter provides both local and global interpretability about the predictive model in terms of human-understandable high level attribute functions, with minimal loss of accuracy. This is achieved by a dedicated architecture and well chosen regularization penalties. We seek for a small-size dictionary of high level attribute functions that take as inputs the outputs of selected hidden layers and whose outputs feed a linear classifier. We impose strong conciseness on the activation of attributes with an entropy-based criterion while enforcing fidelity to both inputs and outputs of the predictive model. A detailed pipeline to visualize the learnt features is also developed. Moreover, besides generating interpretable models by design, our approach can be specialized to provide post-hoc interpretations for a pre-trained neural network. We validate our approach against several state-of-the-art methods on multiple datasets and show its efficacy on both kinds of tasks.
研究动机与目标
- 通过联合训练预测模型与解释模型,解决深度学习中的可解释性挑战。
- 通过人类可理解的高层属性函数,提供局部与全局可解释性。
- 在施加基于熵和稀疏性正则化的前提下,保持预测精度,同时促进属性激活的简洁性与多样性。
- 通过专门化框架,实现对预训练模型的事后可解释性分析。
- 开发一个可视化流程,用于解释学习到的属性概念。
提出的方法
- FLINT 联合训练一个深度神经网络和一个专用的解释器网络,该网络将选定隐藏层的输出映射到线性分类器权重。
- 解释器使用一组高层属性函数,作用于中间特征,实现将预测结果分解为可解释的概念。
- 通过施加稀疏性和基于熵的正则化,促进每个输入的属性激活更加简洁、多样且不冗余。
- 提出一种新颖的相关性度量,量化每个属性对最终预测的贡献,支持局部与全局可解释性。
- 该框架支持端到端训练以及对预训练模型的事后可解释性分析。
- 开发了可视化流程,利用概念激活技术与基于显著性的分割分析,解释学习到的属性。
实验结果
研究问题
- RQ1联合训练的解释器模型是否能在不牺牲预测精度的前提下,同时实现局部与全局可解释性?
- RQ2基于熵和稀疏性的正则化在促进简洁且多样的属性表征方面有多有效?
- RQ3FLINT 是否能有效适应于预训练深度神经网络的事后可解释性分析?
- RQ4学习到的属性函数在一致性与意义性方面,与人类可理解的概念相比如何?
- RQ5隐藏层选择对可解释表征质量有何影响?
主要发现
- FLINT 在 MNIST、Fashion-MNIST、CIFAR10 和 QuickDraw 上实现了可解释性的最先进性能,其属性表征在忠实性与简洁性方面表现更优。
- 基于熵和稀疏性的正则化有效减少了冗余的属性激活,从而产生了更具可解释性与多样性的概念表征。
- 通过 FLINT 进行事后可解释性分析,可对预训练模型生成有意义的属性可视化,尽管性能取决于网络架构与训练数据。
- 对学习到的属性进行可视化显示,FLINT 能够捕捉到语义一致的概念,如物体部件或结构模式,即使在 CIFAR10 等复杂数据集中亦然。
- 实验表明,与 ACE 等基线方法相比,FLINT 的属性函数在非 ImageNet 训练的模型上更具一致性与人类可解释性。
- 主观评估证实,与现有事后方法相比,人类标注者认为 FLINT 生成的解释更具直观性与准确性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。