QUICK REVIEW

[论文解读] Learning how to explain neural networks: PatternNet and PatternAttribution

Pieter Jan Kindermans, Kristof T. Schütt|arXiv (Cornell University)|May 16, 2017

Neural Networks and Applications被引用 246

一句话总结

本文分析神经网络在线性情形中的解释方法，指出现有方法的不足，并引入 PatternNet 和 PatternAttribution，作为理论上有据且数据驱动的解释，能够推广至深度网络。它还提供对 ImageNet（VGG-16）的实证证据，显示信号可视化和归因的改进。

ABSTRACT

DeConvNet, Guided BackProp, LRP, were invented to better understand deep neural networks. We show that these methods do not produce the theoretically correct explanation for a linear model. Yet they are used on multi-layer networks with millions of parameters. This is a cause for concern since linear models are simple neural networks. We argue that explanation methods for neural nets should work reliably in the limit of simplicity, the linear models. Based on our analysis of linear models we propose a generalization that yields two explanation techniques (PatternNet and PatternAttribution) that are theoretically sound for linear models and produce improved explanations for deep networks.

研究动机与目标

通过聚焦可控且可解析追踪信号与干扰项的线性模型来激发对可靠解释的研究动机。
展示现有可视化/归因方法（如 DeConvNet、Guided BackProp、LRP）在呈现真实信号方面的局限性。
提出 PatternNet 和 PatternAttribution，作为对线性模型理论上可靠且数据驱动的解释，并提供对深度网络的扩展。
在实际网络与数据集上评估所提方法，以展示定性与定量的改进。

提出的方法

将输入建模为 x = s + d，其中信号 s = a_s y，干扰项 d，分析线性权重 w 如何与信号方向 a_s 相关。
引入质量标准 rho(S)，衡量信号估计器 S 从残差中移除关于输出 y 的信息的程度，从而引导对真实信号的估计。
回顾现有的信号估计量（S_x、S_w），并展示它们在检测真实信号方面的局限性，特别是在非线性后续层。
通过优化质量标准，推导 PatternNet 作为神经元的非线性信号估计器，得到对输入空间的估计信号的反投影。
将 PatternAttribution 作为 Deep Taylor Decomposition 的根点估计器推导出来，通过忽略干扰项，给出对分类分数的神经元级贡献。
提供正/负两种情形的实际估计量 S_{a+-}，以处理 ReLU/非线性效应，并推导闭式解（Eq. 4.3 和 Eq. 7）。
证明 PatternNet 在反向传递时简化为梯度式回传，但用信息方向替代原始权重，使其更具信息性。

实验结果

研究问题

RQ1现有的解释方法是否能够在线性模型中稳定地捕捉真实信号，进而在深度网络中也成立？
RQ2是否可以定义一个原理性的质量标准来在解释中分离信号与干扰？
RQ3如何构建比传统方法在线性与非线性层上都更优的信号与归因估计量（PatternNet/PatternAttribution）？
RQ4在真实网络和数据集（如 ImageNet/VGG-16）上，这些方法是否能给出更清晰的视觉化和热图（定性与定量的改进）？

主要发现

现有方法如 DeConvNet 和 Guided BackProp 在线性模型中并不能一致地捕捉真实信号，促使采取对信号有感知的解法。
质量标准 rho(S) 可以指导信号估计量的学习，使其从残差中移除干扰信息，从而改进解释。
PatternNet 提供对输入空间的改进信号反投影，所得到的可视化更清晰、对信号的保真度更高，优于现有方法。
PatternAttribution 通过忽略干扰项，提供更清晰的神经元级归因，作为 Deep Taylor Decomposition 的根点估计器。
两组件估计量 S_{a+-} 能处理 ReLU 的正负两种模式，在密集层中改善信号估计。
应用到 ImageNet 的 VGG-16，PatternNet/PatternAttribution 产生更好的定性与定量解释，优化的估计量在相关性和退化测试中优于基线的梯度或权重方法。
PatternAttribution 的类反向传播计算使用替换后的权重与信息方向，使解释更快，达到与现有实时显著性方法相当甚至更快的水平。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。