[论文解读] Smooth Grad-CAM++: An Enhanced Inference Level Visualization Technique for Deep Convolutional Neural Network Models
Smooth Grad-CAM++ 将 SmoothGrad 与 Grad-CAM++ 结合,在推理时提供更尖锐、定位更准确的可视化解释,包括层级、特征图和神经元级可视化。
Gaining insight into how deep convolutional neural network models perform image classification and how to explain their outputs have been a concern to computer vision researchers and decision makers. These deep models are often referred to as black box due to low comprehension of their internal workings. As an effort to developing explainable deep learning models, several methods have been proposed such as finding gradients of class output with respect to input image (sensitivity maps), class activation map (CAM), and Gradient based Class Activation Maps (Grad-CAM). These methods under perform when localizing multiple occurrences of the same class and do not work for all CNNs. In addition, Grad-CAM does not capture the entire object in completeness when used on single object images, this affect performance on recognition tasks. With the intention to create an enhanced visual explanation in terms of visual sharpness, object localization and explaining multiple occurrences of objects in a single image, we present Smooth Grad-CAM++ \footnote{Simple demo: http://35.238.22.135:5000/}, a technique that combines methods from two other recent techniques---SMOOTHGRAD and Grad-CAM++. Our Smooth Grad-CAM++ technique provides the capability of either visualizing a layer, subset of feature maps, or subset of neurons within a feature map at each instance at the inference level (model prediction process). After experimenting with few images, Smooth Grad-CAM++ produced more visually sharp maps with better localization of objects in the given input images when compared with other methods.
研究动机与目标
- 通过提高基于 Grad-CAM 的对 CNN 的解释的定位和视觉清晰度来促进可解释人工智能。
- 不仅能够可视化整个特征图,还能够可视化特征图内的神经元子集。
- 提供一个推理时工具,能够可视化层、特定特征图以及神经元坐标,以便更好地调试。
- 结合梯度平滑以生成更完整且更具视觉吸引力的显著性图。
提出的方法
- 通过对多组带噪输入样本的梯度求平均,将 SmoothGrad 的平滑整合到 Grad-CAM++ 中。
- 在 n 个带噪输入中计算一阶、二阶和三阶偏导数的平均值,以获得 Grad-CAM++ 中的 alpha 和 W 权重,并结合梯度平均进行改写。
- 在 Grad-CAM++ 公式中应用平均梯度,以生成最终的类别判别显著性图。
- 提供一个 API,使得可视化所选层、特征图子集以及特征图中区域内的神经元坐标成为可能。
- 在不重新训练的情况下,使用预训练模型和指定的卷积层(例如 VGG-16 的最后一个卷积层)进行推理时可视化。
- 提供基于区域的神经元可视化或基于坐标的神经元子集的选项,用于调试。
实验结果
研究问题
- RQ1受到 SmoothGrad 启发的梯度平均是否可以提升 Grad-CAM++ 显著性图的视觉清晰度和定位?
- RQ2当图像中出现同一类别的多个目标时,Smooth Grad-CAM++ 能否保持或提升目标定位?
- RQ3用户在推理时是否不仅能可视化整个特征图,还能可视化特征图内的神经元子集?
- RQ4在不重新训练的情况下,该方法在不同层和不同特征图上的表现如何?
- RQ5噪声水平和样本数量对显著性图质量有何影响?
主要发现
- 与 Grad-CAM 和 Grad-CAM++ 相比,Smooth Grad-CAM++ 产生视觉上更清晰的显著性图,定位更准确。
- 该方法在示例图像中捕捉到对象的更大部分并实现更好的定位。
- 该技术实现了特征图级别以及特征图内神经元子集的可视化。
- 一个 API 支持选择层、特征图和神经元区域,以实现灵活的神经元级解释。
- 结果表明在推理时无需重新训练即可增强可解释性,特别是在出现多目标时。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。