[论文解读] Local Explanation Methods for Deep Neural Networks Lack Sensitivity to Parameter Values
该论文通过将随机初始化的网络的解释与训练网络的解释进行比较,调查局部解释方法是否真正反映模型的参数值,结果发现尽管随机化,解释在很大程度上相似。
Explaining the output of a complicated machine learning model like a deep neural network (DNN) is a central challenge in machine learning. Several proposed local explanation methods address this issue by identifying what dimensions of a single input are most responsible for a DNN's output. The goal of this work is to assess the sensitivity of local explanations to DNN parameter values. Somewhat surprisingly, we find that DNNs with randomly-initialized weights produce explanations that are both visually and quantitatively similar to those produced by DNNs with learned weights. Our conjecture is that this phenomenon occurs because these explanations are dominated by the lower level features of a DNN, and that a DNN's architecture provides a strong prior which significantly affects the representations learned at these lower layers. NOTE: This work is now subsumed by our recent manuscript, Sanity Checks for Saliency Maps (to appear NIPS 2018), where we expand on findings and address concerns raised in Sundararajan et. al. (2018).
研究动机与目标
- 评估局部解释对DNN实际参数值的忠实度。
- 确定在网络权重随机重新初始化时,解释是否显著变化。
- 研究局部解释是否受低级输入特征和架构先验支配。
- 探究网络架构与参数值对解释方法的影响。
提出的方法
- 调查并实现多种局部解释方法,包括梯度(Gradient)、积分梯度(Integrated Gradients)、引导反向传播(Guided Backpropagation)、Grad-CAM、Guided Grad-CAM、SmoothGrad 和 VarGrad。
- 通过从顶层向下重新初始化权重并测量解释相似性来进行级联网络随机化。
- 对每一层进行独立重新初始化并测量解释相似性。
- 使用斯皮尔曼等级相关对固定图像集中的解释相似性进行量化。
- 分析在不同架构(ImageNet 的 Inception v3、MNIST 的 CNN、MNIST 的 MLP)和数据集上的结果。
实验结果
研究问题
- RQ1具有随机权重的DNN所产生的局部解释是否与学习权重的局部解释相似?
- RQ2局部解释是否被在随机初始化下仍然保留的较低级特征所支配?
- RQ3随着逐步对网络块进行随机化,解释在不同方法之间的稳定性如何?
- RQ4架构是否给予强先验,支配解释而与参数值无关?
主要发现
- 具有随机初始化权重的DNN所产生的解释在视觉上和数量上都类似于学习权重的解释。
- 由于低级输入特征和架构先验的支配,解释往往对随机初始化具有不变性。
- Guided Backpropagation 和 Guided Grad-CAM 在网络退化的情况下对解释几乎没有变化。
- 输入–输出梯度解释在随机化达到较低层时变化最大。
- 在 ImageNet 的 Inception v3 以及 MNIST 的 CNN/MLP 模型上,这些结果成立。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。