[论文解读] A Benchmark for Interpretability Methods in Deep Neural Networks
论文提出 ROAR,一种在修改数据上重新训练的框架,用以实证评估深度网络的特征重要性估计方法,显示许多常见方法的表现不及随机基线,而 Ensemble 方法 VarGrad 和 SmoothGrad-Squared 表现出色。
We propose an empirical measure of the approximate accuracy of feature importance estimates in deep neural networks. Our results across several large-scale image classification datasets show that many popular interpretability methods produce estimates of feature importance that are not better than a random designation of feature importance. Only certain ensemble based approaches---VarGrad and SmoothGrad-Squared---outperform such a random assignment of importance. The manner of ensembling remains critical, we show that some approaches do no better then the underlying method but carry a far higher computational burden.
研究动机与目标
- 在深度学习中激发对输入特征重要性方法可靠评估的需求。
- 提出 ROAR(Remove and Retrain)作为一个经验基准,用于衡量特征重要性估计的近似准确性。
- 在大规模图像数据集上评估广泛的估计器,以确定它们的相对可靠性。
- 显示集成对性能的影响,并识别哪些集成变体能产生最佳解释。
提出的方法
- 通过将输入特征按估计重要性排序,并用均值替换前一小部分,然后在修改后的数据上从随机初始化重新训练模型来定义 ROAR。
- 将估计器与随机和 Sobel 边缘滤波基线进行比较,以建立性能下限。
- 在 ImageNet、Food-101、Birdsnap 上评估基础估计器(Gradients, Guided Backprop, Integrated Gradients)和集成变体(SmoothGrad, SmoothGrad-Squared, VarGrad)。
- 每种设置使用 5 次重新训练以考虑变异性,并报告平均测试准确度。
- 分析集成方法是否优于单一估计,以及探讨集成对计算负担的影响。
实验结果
研究问题
- RQ1在 ROAR 评估下,常见输入特征重要性估计方法的准确性是否高于随机机会?
- RQ2基于集成的估计方法(SmoothGrad, SmoothGrad-Squared, VarGrad)是否在大数据集上优于单一估计和随机基线?
- RQ3从头重新训练如何影响解释质量的测量,与非重新训练的基于删除的评估相比?
- RQ4底层基础估计器是否影响哪种集成方法在不同数据集上表现最佳?
- RQ5集成方法在计算成本与解释准确性之间的权衡如何?
主要发现
- 基础估计器(Gradients, Integrated Gradients, Guided Backprop)在 ROAR 下在所有数据集上的表现等同于或低于随机基线。
- 经典 SmoothGrad 往往比单一估计差,甚至有时比随机基线差。
- SmoothGrad-Squared 和 VarGrad 始终显著提高准确性,相对于其他方法以及随机和 Sobel 基线均表现出色。
- VarGrad 与 SG-SQ 的性能优势在 ImageNet、Food101、Birdsnap 上均可观察到,尽管最佳底层估计器因任务而异。
- 重新训练显著缓解性能下降,表明需要重新训练以正确评估归因质量。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。