Skip to main content
QUICK REVIEW

[论文解读] How Well do Feature Visualizations Support Causal Understanding of CNN Activations?

R. Zimmermann, Judy Borowski|arXiv (Cornell University)|Jun 23, 2021
Explainable Artificial Intelligence (XAI)被引用 24
一句话总结

本研究评估了合成特征可视化(常用于解释CNN单元激活)是否相较于自然图像示例,能为人类提供更优的因果理解。通过一项心理物理学实验,参与者需预测遮挡不同图像块对单元激活的影响,研究发现特征可视化仅在微弱程度上优于自然图像,表明其在人类中并未展现出独特的因果洞察支持作用。

ABSTRACT

A precise understanding of why units in an artificial network respond to certain stimuli would constitute a big step towards explainable artificial intelligence. One widely used approach towards this goal is to visualize unit responses via activation maximization. These synthetic feature visualizations are purported to provide humans with precise information about the image features that cause a unit to be activated - an advantage over other alternatives like strongly activating natural dataset samples. If humans indeed gain causal insight from visualizations, this should enable them to predict the effect of an intervention, such as how occluding a certain patch of the image (say, a dog's head) changes a unit's activation. Here, we test this hypothesis by asking humans to decide which of two square occlusions causes a larger change to a unit's activation. Both a large-scale crowdsourced experiment and measurements with experts show that on average the extremely activating feature visualizations by Olah et al. (2017) indeed help humans on this task ($68 \\pm 4$% accuracy; baseline performance without any visualizations is $60 \\pm 3$%). However, they do not provide any substantial advantage over other visualizations (such as e.g. dataset samples), which yield similar performance ($66\\pm3$% to $67 \\pm3$% accuracy). Taken together, we propose an objective psychophysical task to quantify the benefit of unit-level interpretability methods for humans, and find no evidence that a widely-used feature visualization method provides humans with better "causal understanding" of unit activations than simple alternative visualizations.

研究动机与目标

  • 评估合成特征可视化是否能帮助人类获得对CNN单元激活的因果理解。
  • 检验特征可视化是否在预测干预结果方面相较于其他可视化方法(如自然数据集样本)具有可测量的优势。
  • 开发并验证一种心理物理学任务,以量化人类在干预预测任务中的可解释性表现。
  • 探究激活最大化可视化是否真正隔离了驱动单元响应的因果特征。
  • 比较合成可视化与自然范例在支持人类推理CNN行为方面的有效性。

提出的方法

  • 在Amazon Mechanical Turk(MTurk)上开展大规模众包实验,参与者需判断两个被遮挡图像块中哪一个导致CNN单元激活变化更大。
  • 使用参考图像,包括来自Olah等人研究的合成特征可视化和自然数据集样本,作为参与者判断的视觉辅助。
  • 设计实验试次,将两个遮挡块置于图像不同位置,要求参与者预测激活变化的相对大小。
  • 实施排除标准以确保数据质量:包含陷阱试次、响应变异性过高、指令阅读和总任务时长远低于阈值的参与者。
  • 在MTurk参与者中复现先前的实验室实验,以确保结果的一致性与可推广性。
  • 通过统计功效分析评估表现,并报告准确率、置信度评分和反应时间。

实验结果

研究问题

  • RQ1与无可视化相比,合成特征可视化是否显著提升人类预测图像遮挡对CNN单元激活影响的能力?
  • RQ2在预测干预结果方面,特征可视化是否相较于自然图像示例具有实质性性能优势?
  • RQ3当由特征可视化引导时,人类是否能获得比其他可解释性方法更好的因果理解?
  • RQ4非专家参与者与专家在预测图像操作后激活变化方面的表现如何比较?
  • RQ5置信度评分与反应时间在干预预测任务中与准确率的相关性如何?

主要发现

  • 当由合成特征可视化引导时,参与者对遮挡效应的预测准确率达到68±4%,显著高于无任何可视化时的60±3%基线水平。
  • 自然数据集样本的准确率与之相当,为66±3%至67±3%,表明合成可视化并无明显优势。
  • MTurk参与者使用自然图像时的表现优于使用合成可视化时(分别为84±3%与65±3%),表明合成特征的可解释性可能存在局限。
  • 尽管准确率较低,参与者在使用合成可视化时表现出更高的置信度,提示置信度与正确性之间可能存在错配。
  • 使用合成可视化时反应时间更短,但该速度与更高准确率无相关性,表明速度未必反映理解力提升。
  • 排除标准有效过滤了低质量响应,85%的参与者通过了所有标准,确保了众包设置下数据收集的可靠性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。