[论文解读] The effectiveness of feature attribution methods and its correlation with automatic evaluation scores
本研究评估特征归因图(GradCAM、EP、SOD)和最近邻解释如何影响人机协同在 ImageNet 和 Stanford Dogs 的性能,包括对抗性情形,并揭示自动归因度量与实际人类表现之间的弱相关性。
Explaining the decisions of an Artificial Intelligence (AI) model is increasingly critical in many real-world, high-stake applications. Hundreds of papers have either proposed new feature attribution methods, discussed or harnessed these tools in their work. However, despite humans being the target end-users, most attribution methods were only evaluated on proxy automatic-evaluation metrics (Zhang et al. 2018; Zhou et al. 2016; Petsiuk et al. 2018). In this paper, we conduct the first user study to measure attribution map effectiveness in assisting humans in ImageNet classification and Stanford Dogs fine-grained classification, and when an image is natural or adversarial (i.e., contains adversarial perturbations). Overall, feature attribution is surprisingly not more effective than showing humans nearest training-set examples. On a harder task of fine-grained dog categorization, presenting attribution maps to humans does not help, but instead hurts the performance of human-AI teams compared to AI alone. Importantly, we found automatic attribution-map evaluation measures to correlate poorly with the actual human-AI team performance. Our findings encourage the community to rigorously test their methods on the downstream human-in-the-loop applications and to rethink the existing evaluation metrics.
研究动机与目标
- 评估在“人机协同”设置下,归因图是否有助于人类提升图像分类准确性。
- 在 ImageNet 和 Stanford Dogs 上比较基于归因的解释与基线解释及最近邻原型的效果。
- 评估在真实与对抗性图像上的人机表现,以理解解释的鲁棒性。
- 研究常见自动归因度量(Pointing Game、IoU、WSL)与实际人机协同表现之间的相关性。
- 比较普通用户与机器学习专家在归因图与最近邻解释的有用性方面的差异。
提出的方法
- 进行大规模用户研究,邀请普通参与者与 ML 专家在看到解释后判断 AI 的 top-1 标签是否正确。
- 使用在 ImageNet 上预训练的 ResNet-34 作为分类器,为 ImageNet 与 Stanford Dogs 生成预测和解释。
- 比较六种情境:AI-only、Confidence、GradCAM、Extremal Perturbation (EP)、Salient Object Detection (SOD) 与 3-NN 原型。
- 包含真实、错误分类和对抗性图像以测试解释的鲁棒性。
- 使用 Pointing Game、IoU 与弱监督定位(WSL)评估归因图与人类判断的一致性。
- 以 3-NN(来自预测类别的最近三个训练样本)作为基于原型的解释。
- 招募 320 名参与者(在两组数据集上分别有 161 个 ImageNet 提交和 159 个 Dogs 提交合格样本)。
实验结果
研究问题
- RQ1归因图(GradCAM、EP、SOD)是否在 ImageNet 与 Stanford Dogs 上提升人机团队的准确性,相较于基线?
- RQ2在自然图像与对抗图像中,3-NN 解释与归因图在帮助人类决策方面的效果有何差异?
- RQ3自动归因评估度量(Pointing Game、IoU、WSL)是否能预测实际的人机团队表现?
- RQ4普遍用户与 ML 专家在使用归因图或 3-NN 解释时,结果是否存在差异?
- RQ5在更困难的细粒度任务(Stanford Dogs)与广义的 1000 类数据集(ImageNet)之间,解释的作用有何不同?
主要发现
- 3-NN 解释在 ImageNet 与 Stanford Dogs 上对普通用户的表现优于归因图。
- 在 ImageNet 上,热图结合置信度得分可为人机团队带来 6–8% 的准确率提升,但其中大约一半的提升并非来自热图本身的贡献。
- 在 Stanford Dogs 上,3-NN 与热图都倾向于降低人机团队的准确性,相对于仅使用 AI 的基线。
- 在对抗性图像中,单独的置信度得分有帮助,且 3-NN 相较于仅置信度带来稳定的约 4% 的提升。
- 自动归因度量(Pointing Game、IoU、WSL)与实际的人机团队表现相关性较低,仅在 ImageNet 的 GradCAM 上呈现少量正相关(IoU r=0.22,WSL r=0.15,Pointing Game r=0.21)。
- ML 专家使用 3-NN 的表现显著优于使用 GradCAM 的表现(平均准确率 76.67% 对 68.00%)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。