[论文解读] Full-Gradient Representation for Neural Network Visualization
本文介绍 FullGrad,一种将神经网络输出同时归因于输入和神经元的全梯度表示,满足完整性和弱依赖,并给出卷积网络的近似 FullGrad,伴随定量和定性评估。
We introduce a new tool for interpreting neural net responses, namely full-gradients, which decomposes the neural net response into input sensitivity and per-neuron sensitivity components. This is the first proposed representation which satisfies two key properties: completeness and weak dependence, which provably cannot be satisfied by any saliency map-based interpretability method. For convolutional nets, we also propose an approximate saliency map representation, called FullGrad, obtained by aggregating the full-gradient components. We experimentally evaluate the usefulness of FullGrad in explaining model behaviour with two quantitative tests: pixel perturbation and remove-and-retrain. Our experiments reveal that our method explains model behaviour correctly, and more comprehensively than other methods in the literature. Visual inspection also reveals that our saliency maps are sharper and more tightly confined to object regions than other methods.
研究动机与目标
- 说明需要一种能够同时捕捉输入级重要性和神经元级重要性的归因方法。
- 定义弱依赖和完整性,并证明传统显著性图无法同时满足两者。
- 引入将输入梯度和偏置梯度贡献统一起来的全梯度表示。
- 提出用于卷积网络的 FullGrad,以生成清晰且局部在对象上的显著性图。
- 通过像素扰动和移除-再训练测试评估 FullGrad,以证明其更高的忠实性。
提出的方法
- 推导网络输出对输入梯度和偏置梯度的全梯度分解。
- 证明 f(x; b) 可以表示为输入梯度项与偏置梯度项的和(f^b(x))。
- 通过定义的公式将逐神经元和逐层的偏置梯度聚合为适用于 CNN 的网络级显性图。
- 定义一个后处理算子 psi,将全梯度分量转换为可视化显著性图(FullGrad)。
- 提供一个近似的 FullGrad,将输入梯度图与跨层聚合的偏置梯度图结合。
- 讨论可视化步骤以及偏置项在网络中的作用,包括隐式偏置。
实验结果
研究问题
- RQ1显著性表示是否能够同时满足对输入的弱依赖和完整性?
- RQ2如何构建一个更具表达力的归因,同时包含输入特征和神经元贡献?
- RQ3相比现有方法,完全梯度方法是否能为 CNN 产生更清晰、局部化的显著性图?
- RQ4基于全梯度的显著性图在扰动与再训练评估下是否与模型行为对齐得更好?
- RQ5后处理选择对 FullGrad 作为可视化工具的有效性有何影响?
主要发现
- 全梯度通过从输入梯度和偏置梯度重建网络输出,提供完整的表示。
- 对于带偏置的 ReLU 网络,f(x) 等于输入梯度与输入的内积再加上偏置梯度与偏置的内积。
- 对 CNN 的 FullGrad 通过可视化具有与输入相同感受野结构的偏置梯度来产生空间图,形成逐神经元和逐层的显著性图。
- 所提出的聚合方法产生更清晰的显著性图,紧密地限定在对象区域,同时勾勒出内部结构。
- 定量评估(像素扰动和类 ROAR 的测试)表明 FullGrad 在对模型行为忠实性方面超过了若干现有显著性方法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。