Skip to main content
QUICK REVIEW

[论文解读] Towards Ground Truth Evaluation of Visual Explanations

Ahmed Osman, Leila Arras|arXiv (Cornell University)|Mar 16, 2020
Multimodal Machine Learning Applications参考文献 51被引用 12
一句话总结

本文引入了一个合成的、类似CLEVR的视觉问答数据集,其像素级相关性具有已知的真实标签,用于在受控环境中评估视觉解释方法。利用该基准,本文提出了两种新度量,并证明在解释关系网络模型的预测结果时,逐层相关性传播优于梯度乘输入和积分梯度方法。

ABSTRACT

Several methods have been proposed to explain the decisions of neural networks in the visual domain via saliency heatmaps (aka relevances/feature importance scores). Thus far, these methods were mainly validated on real-world images, using either pixel perturbation experiments or bounding box localization accuracies. In the present work, we propose instead to evaluate explanations in a restricted and controlled setup using a synthetic dataset of rendered 3D shapes. To this end, we generate a CLEVR-alike visual question answering benchmark with around 40,000 questions, where the ground truth pixel coordinates of relevant objects are known, which allows us to validate explanations in a fair and transparent way. We further introduce two straightforward metrics to evaluate explanations in this setup, and compare their outcomes to standard pixel perturbation using a Relation Network model and three decomposition-based explanation methods: Gradient x Input, Integrated Gradients and Layer-wise Relevance Propagation. Among the tested methods, Layer-wise Relevance Propagation was shown to perform best, followed by Integrated Gradients. More generally, we expect the release of our dataset and code to support the development and comparison of methods on a well-defined common ground.

研究动机与目标

  • 为深度学习中的视觉解释方法提供可靠且透明的评估手段。
  • 创建一个受控的合成数据集,其中每个问题的像素级真实相关性均已知。
  • 在不受真实世界数据模糊性影响的环境中,开发并验证新的视觉解释评估度量。
  • 在受控条件下比较主流解释方法(梯度乘输入、积分梯度和逐层相关性传播)的性能。
  • 为未来解释方法的开发与公平比较提供公开可用的基准。

提出的方法

  • 作者生成了一个类似CLEVR的合成数据集,包含约40,000个渲染的3D场景,以及对应的视觉问答对。
  • 对于每个问题,均在像素级别明确标注了真实相关像素(即问题中提及的对象)。
  • 提出了两种新度量,用于量化解释热图与真实相关性之间的对齐程度。
  • 在数据集上训练了一个关系网络模型以生成预测结果,随后使用三种基于分解的方法(梯度乘输入、积分梯度和逐层相关性传播)对预测结果进行解释。
  • 使用所提出的度量和标准的像素扰动技术对解释结果进行评估,以实现对比。
  • 整个数据集和代码均已发布,以支持可复现性及未来基准测试。

实验结果

研究问题

  • RQ1在具有已知真实相关性的合成数据集上,不同解释方法的性能如何?
  • RQ2为像素级相关性设计的新度量是否能提升解释评估的公平性与透明度?
  • RQ3当使用真实相关性与基于扰动的评估方法时,解释方法的性能表现有何差异?
  • RQ4哪种解释方法生成的热图与图像中真实相关对象的对齐度最高?
  • RQ5受控的合成设置在多大程度上能够实现视觉解释评估的可靠性与可解释性?

主要发现

  • 逐层相关性传播在所有评估方法中与真实相关性对齐度最高。
  • 积分梯度表现优异,解释准确度排名第二。
  • 梯度乘输入表现最弱,表明其在捕捉细粒度相关性方面存在局限。
  • 所提出的评估度量比标准像素扰动方法更可靠地检测出性能差异。
  • 由于具备真实标签,该合成数据集实现了透明、可复现且公平的解释方法评估。
  • 数据集与代码的发布有望推动视觉解释研究中标准化基准测试与方法开发的进展。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。