QUICK REVIEW

[论文解读] A Benchmark for Interpretability Methods in Deep Neural Networks

Sara Hooker, Dumitru Erhan|arXiv (Cornell University)|Jun 28, 2018

Adversarial Robustness in Machine Learning被引用 379

一句话总结

论文提出 ROAR，一种在修改数据上重新训练的框架，用以实证评估深度网络的特征重要性估计方法，显示许多常见方法的表现不及随机基线，而 Ensemble 方法 VarGrad 和 SmoothGrad-Squared 表现出色。

ABSTRACT

We propose an empirical measure of the approximate accuracy of feature importance estimates in deep neural networks. Our results across several large-scale image classification datasets show that many popular interpretability methods produce estimates of feature importance that are not better than a random designation of feature importance. Only certain ensemble based approaches---VarGrad and SmoothGrad-Squared---outperform such a random assignment of importance. The manner of ensembling remains critical, we show that some approaches do no better then the underlying method but carry a far higher computational burden.

研究动机与目标

在深度学习中激发对输入特征重要性方法可靠评估的需求。
提出 ROAR（Remove and Retrain）作为一个经验基准，用于衡量特征重要性估计的近似准确性。
在大规模图像数据集上评估广泛的估计器，以确定它们的相对可靠性。
显示集成对性能的影响，并识别哪些集成变体能产生最佳解释。

提出的方法

通过将输入特征按估计重要性排序，并用均值替换前一小部分，然后在修改后的数据上从随机初始化重新训练模型来定义 ROAR。
将估计器与随机和 Sobel 边缘滤波基线进行比较，以建立性能下限。
在 ImageNet、Food-101、Birdsnap 上评估基础估计器（Gradients, Guided Backprop, Integrated Gradients）和集成变体（SmoothGrad, SmoothGrad-Squared, VarGrad）。
每种设置使用 5 次重新训练以考虑变异性，并报告平均测试准确度。
分析集成方法是否优于单一估计，以及探讨集成对计算负担的影响。

实验结果

研究问题

RQ1在 ROAR 评估下，常见输入特征重要性估计方法的准确性是否高于随机机会？
RQ2基于集成的估计方法（SmoothGrad, SmoothGrad-Squared, VarGrad）是否在大数据集上优于单一估计和随机基线？
RQ3从头重新训练如何影响解释质量的测量，与非重新训练的基于删除的评估相比？
RQ4底层基础估计器是否影响哪种集成方法在不同数据集上表现最佳？
RQ5集成方法在计算成本与解释准确性之间的权衡如何？

主要发现

基础估计器（Gradients, Integrated Gradients, Guided Backprop）在 ROAR 下在所有数据集上的表现等同于或低于随机基线。
经典 SmoothGrad 往往比单一估计差，甚至有时比随机基线差。
SmoothGrad-Squared 和 VarGrad 始终显著提高准确性，相对于其他方法以及随机和 Sobel 基线均表现出色。
VarGrad 与 SG-SQ 的性能优势在 ImageNet、Food101、Birdsnap 上均可观察到，尽管最佳底层估计器因任务而异。
重新训练显著缓解性能下降，表明需要重新训练以正确评估归因质量。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。