QUICK REVIEW

[论文解读] Use HiResCAM instead of Grad-CAM for faithful explanations of convolutional neural networks

Rachel Lea Draelos, Lawrence Carin|arXiv (Cornell University)|Nov 17, 2020

Explainable Artificial Intelligence (XAI)被引用 76

一句话总结

HiResCAM 提供对分类特定的解释，忠实地反映 CNN 用于预测的位置，解决 Grad-CAM 由于梯度平均而导致注意力模糊或扩展的问题。

ABSTRACT

Explanation methods facilitate the development of models that learn meaningful concepts and avoid exploiting spurious correlations. We illustrate a previously unrecognized limitation of the popular neural network explanation method Grad-CAM: as a side effect of the gradient averaging step, Grad-CAM sometimes highlights locations the model did not actually use. To solve this problem, we propose HiResCAM, a novel class-specific explanation method that is guaranteed to highlight only the locations the model used to make each prediction. We prove that HiResCAM is a generalization of CAM and explore the relationships between HiResCAM and other gradient-based explanation methods. Experiments on PASCAL VOC 2012, including crowd-sourced evaluations, illustrate that while HiResCAM's explanations faithfully reflect the model, Grad-CAM often expands the attention to create bigger and smoother visualizations. Overall, this work advances convolutional neural network explanation approaches and may aid in the development of trustworthy models for sensitive applications.

研究动机与目标

在 CNN 中需要忠实解释以避免敏感应用中的虚假相关和偏见。
将 HiResCAM 作为一种逐类解释方法引入，克服 Grad-CAM 的梯度平均限制。
证明理论关系：HiResCAM 是 CAM 的推广，并与 Grad-CAM 和 Gradient* Input 相连接。
在自然图像和一个医学图像数据集上对比 HiResCAM 与 Grad-CAM 的经验表现，包括众包感知。
提供何时在可信解释中使用 HiResCAM 或 CAM 架构的指南。

提出的方法

将 HiResCAM 定义为梯度与相应特征图的逐元素乘积在所有特征图上的求和：ÃA_m^{HiResCAM} = sum_f (∂s_m/∂A^f) ⊙ A^f。
显示 Grad-CAM 使用平均梯度 α_m^f = (1/D1D2) sum_{d1,d2} ∂s_m/∂A^f_{d1d2}，然后形成 ÃA_m^{GradCAM} = sum_f α_m^f A^f。
证明对于以一个全连接层结尾的 CNN，HiResCAM 能突出增加类别分数的位置，通过推导 s_m = w_m A + b_m 与 ∂s_m/∂A = w_m。
证明对于 CAM 架构（全局平均池化后接全连接层），HiResCAM 在某个归一化常数下等价于 CAM。
讨论与 CAM、Grad-CAM、Gradient* Input 的关系，并证明 HiResCAM 是一个局部解释，反映模型的计算。

实验结果

研究问题

RQ1HaResCAM 是否能对以单个全连接层结尾的 CNN 提供忠实地反映模型计算的解释？
RQ2HiResCAM 与 Grad-CAM 的解释在定位、焦点和注意力图大小方面有何不同？
RQ3在不同的 CNN 架构中，HiResCAM、CAM、Grad-CAM 与 Gradient* Input 的理论关系是什么？
RQ4对自然图像和医学数据的实证比较是否支持 HiResCAM 作为比 Grad-CAM 更忠实的替代？

主要发现

HiResCAM 的解释被证明在以一个全连接层结束的 CNN 中能反映模型的计算，在该设置下对模型实际使用的位置的 L2 距离为零。
实证结果显示 Grad-CAM 的解释与 HiResCAM 不同，且常看起来比忠实的 HiResCAM 解释更大且更圆。
在 PASCAL VOC 2012 与 DenseNet-121v、ResNet-34v 比较中，Grad-CAM 对真实位置产生非零的 L2 距离，而 HiResCAM 为零，证实其忠实性。
弱监督分割 IoU 结果表明 Grad-CAM 有时优于 HiResCAM，提示 Grad-CAM 的扩展注意力有助于 WSS，但以牺牲忠实性为代价。
众包人类感知实验表明 Grad-CAM 的解释往往比 HiResCAM 更大或聚焦更差，与定性观察一致。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。