[论文解读] Removing input features via a generative model to explain their attributions to a classifier's decisions
该论文提出将生成式修复模型(generative inpainter)集成到归因方法中,以更真实地移除输入特征,替代传统的启发式移除技术(如模糊化或加噪)。该方法生成的反事实样本更合理,对超参数的鲁棒性更强,并在 ImageNet 和 Places365 数据集上提升了目标定位、删除和显著性等指标的准确性。
Interpretability methods often measure the contribution of an input feature to an image classifier's decisions by heuristically removing it via e.g. blurring, adding noise, or graying out, which often produce unrealistic, out-of-samples. Instead, we propose to integrate a generative inpainter into three representative attribution methods to remove an input feature. Compared to the original counterparts, our methods (1) generate more plausible counterfactual samples under the true data generating process; (2) are more robust to hyperparameter changes; and (3) are more accurate according to three metrics: object localization, deletion and saliency metrics. Our findings were consistent across both ImageNet and Places365 datasets and two different pairs of classifiers and inpainters.
研究动机与目标
- 解决启发式特征移除方法(如模糊化、加噪)生成不真实、分布外样本的局限性。
- 通过在真实数据生成过程中建模特征移除,提升反事实样本的真实性。
- 增强归因方法对超参数变化的鲁棒性。
- 通过标准指标(如目标定位、删除、显著性分数)提升特征归因的准确性。
- 在多样化的数据集(ImageNet、Places365)和模型组合中展示一致的性能提升。
提出的方法
- 用深度生成式修复模型替代启发式特征移除方法,利用上下文信息重建被遮蔽的输入区域。
- 将修复模型集成到三种成熟的归因方法中:Grad-CAM、GradCAM++ 和 Score-CAM。
- 在前向传播过程中应用修复模型,当某个特征被移除时生成更真实的反事实输入。
- 利用模型在这些修复输入上的预测结果计算特征归因,确保与数据流形保持一致。
- 在与分类器相同的分布上训练修复模型,以保持真实特征分布。
- 保持端到端可微性,以支持在修复输入上基于梯度的归因计算。
实验结果
研究问题
- RQ1生成式修复模型是否能生成比启发式移除方法更真实的反事实样本?
- RQ2使用生成模型进行特征移除是否能提升归因方法对超参数选择的鲁棒性?
- RQ3所提方法在标准评估指标上的归因准确性提升程度如何?
- RQ4该方法在不同数据集和分类器-修复器组合下的表现如何?
- RQ5使用生成式修复是否能更忠实于图像分类决策中的显著区域定位?
主要发现
- 与启发式移除方法相比,所提方法生成的反事实样本更真实,且更符合真实数据分布。
- 采用生成式修复模型的归因方法在所有测试配置下均表现出对超参数变化更强的鲁棒性。
- 在目标定位、删除和显著性指标上,该方法的准确性优于基线方法。
- 在 ImageNet 和 Places365 两个数据集上,性能提升保持一致。
- 在两种不同的分类器-修复器组合中,该方法均保持优异性能,表明其在不同架构间的泛化能力。
- 生成式修复的集成可实现更可靠、更可解释的特征归因,且无需重新训练模型。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。