Skip to main content
QUICK REVIEW

[论文解读] Evaluating Saliency Map Explanations for Convolutional Neural Networks: A User Study

Ahmed Alqaraawi, Martin Schuessler|arXiv (Cornell University)|Feb 3, 2020
Explainable Artificial Intelligence (XAI)参考文献 44被引用 30
一句话总结

本研究评估基于LRP的显著性映射在CNN图像分类中的作用,发现它们在帮助用户学习显著特征并略微提升任务准确率(60.7% 对 55.1%)方面有帮助,但在新图像上预测输出方面并未显著改进。

ABSTRACT

Convolutional neural networks (CNNs) offer great machine learning performance over a range of applications, but their operation is hard to interpret, even for experts. Various explanation algorithms have been proposed to address this issue, yet limited research effort has been reported concerning their user evaluation. In this paper, we report on an online between-group user study designed to evaluate the performance of "saliency maps" - a popular explanation algorithm for image classification applications of CNNs. Our results indicate that saliency maps produced by the LRP algorithm helped participants to learn about some specific image features the system is sensitive to. However, the maps seem to provide very limited help for participants to anticipate the network's output for new images. Drawing on our findings, we highlight implications for design and further research on explainable AI. In particular, we argue the HCI and AI communities should look beyond instance-level explanations.

研究动机与目标

  • 评估显著性映射是否提高普通用户和专家对CNN在多标签图像分类中的决策的理解。
  • 研究可视化解释(LRP显著性映射)是否影响用户在新图像上预测CNN输出的能力。
  • 检查在显著性映射旁边包含分类分数是否会改变用户的表现。
  • 通过评估超越单一预测的实例级解释,为解释性AI的设计提供启示。

提出的方法

  • 采用2x2因子设计的在线分组用户研究。
  • 参与者对PASCAL VOC留出集中的14个任务图像预测CNN结果,并列出系统敏感的2–3个特征以及忽略的2–3个特征。
  • CNN模型:在PASCAL VOC 2012上微调的VGG16,训练/验证AP为0.91,PASCAL VOC 2007测试集的AP为0.74。
  • 显著性映射使用层次相关传播(LRP)并采用alpha-beta传播(alpha=2,beta=1)生成。
  • 两个自变量:显著性映射的存在(是/否)和前10个类别分数的存在(是/否)。
  • 展示给参与者的示例图像,按嵌入空间中与任务图像的余弦相似度选择,结果各异(TP、FN、FP)。

实验结果

研究问题

  • RQ1显著性映射是否能提高参与者对新图像预测CNN输出的能力?
  • RQ2将分类分数并列在解释信息旁是否会影响用户的表现或信任?
  • RQ3用户在解释CNN决策时会提到哪类特征?并且这与显著性映射的可用性有何关系?

主要发现

  • 当显示显著性映射时,参与者在预测CNN结果方面更准确(60.7% 对 55.1%),p=0.045。
  • 分类分数对预测性能没有显著影响。
  • 总体任务准确率相对较低,表明解释在预测新预测方面的效用有限。
  • 当显著性映射存在时,参与者提到的显著性特征比例更高(83.9% 对 54.6%),表明映射引导了对高亮区域的注意。
  • 预测信心在不同条件下没有差异,且保持在较低水平。
  • 显著性映射帮助用户了解系统对某些图像特征的敏感性,但未始终如一地提高对模型对新图像泛化能力的理解。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。