QUICK REVIEW

[论文解读] Layer-wise Relevance Propagation for Neural Networks with Local Renormalization Layers

Alexander Binder, Grégoire Montavon|arXiv (Cornell University)|Apr 4, 2016

Explainable Artificial Intelligence (XAI)参考文献 1被引用 25

一句话总结

该论文通过一阶泰勒展开将层归一化相关性传播（LRP）扩展至卷积神经网络中的局部归一化层，实现了准确的像素级相关性归因。该方法在CIFAR-10、ImageNet和MIT Places数据集上显著提升了热力图质量，AUC得分相比基线LRP最高提升35.84分。

ABSTRACT

Layer-wise relevance propagation is a framework which allows to decompose the prediction of a deep neural network computed over a sample, e.g. an image, down to relevance scores for the single input dimensions of the sample such as subpixels of an image. While this approach can be applied directly to generalized linear mappings, product type non-linearities are not covered. This paper proposes an approach to extend layer-wise relevance propagation to neural networks with local renormalization layers, which is a very common product-type non-linearity in convolutional neural networks. We evaluate the proposed method for local renormalization layers on the CIFAR-10, Imagenet and MIT Places datasets.

研究动机与目标

为解决标准LRP在处理CNN中乘积型非线性（如局部归一化层）时的局限性。
实现在具有非线性、非可加性激活机制的深层神经网络中，实现忠实的像素级相关性归因。
评估基于泰勒展开的相关性传播在真实世界图像分类数据集上的有效性。
将基于泰勒展开的LRP与采用恒等归一化的标准LRP公式进行性能对比。

提出的方法

提出对局部归一化层中的激活函数进行一阶泰勒展开，推导出相关性重分配规则。
通过用局部泰勒近似替代标准线性近似，改进LRP框架，以适应非线性神经元。
利用泰勒展开计算从高层神经元到低层神经元的相关性消息 $ R^{(l,l+1)}_{i\rightarrow j} $，确保相关性守恒。
将该方法应用于具有乘积型非线性的层，如CNN中的空间归一化层，标准LRP在这些层上失效。
采用 $ \epsilon $-规则和 $ \beta $-规则进行相关性传播，其中泰勒展开替代了归一化层中的恒等映射。
提出一种可微分的、局部的近似策略，保持了LRP的一致性与可解释性。

实验结果

研究问题

RQ1能否使用一阶泰勒展开将LRP扩展至局部归一化层，这些层是非可加的，且未被标准LRP覆盖？
RQ2在基准数据集上，基于泰勒展开的LRP与采用恒等归一化的标准LRP在热力图质量方面相比如何？
RQ3在使用泰勒展开时，哪些超参数（$ \epsilon $, $ \beta $）能产生最具代表性且选择性最强的热力图？
RQ4在归一化层中使用泰勒展开是否会破坏LRP的整体一致性和可解释性？

主要发现

在ImageNet上，与基于恒等归一化的版本相比，局部归一化层中使用泰勒展开使AUC得分最高提升35.84分，在MIT Places上提升达33.13分。
表现最佳的配置（泰勒展开配合 $ \epsilon = 1 $）在可视化结果（图3）中显示出最高的像素选择性与最低的噪声。
对于 $ \epsilon = 1 $ 和 $ \epsilon = 0.01 $，基于泰勒展开的LRP始终优于基于恒等归一化的LRP，AUC提升分别为-35.84和-33.13。
$ \beta = 1 $ 和 $ \beta = 0 $ 的设置产生平滑的热力图，但基于泰勒展开的LRP在所有参数设置下均保持更优性能。
性能排序在各数据集上保持一致：$ \epsilon = 1 $, $ \epsilon = 0.01 $, $ \epsilon = 100 $, $ \beta = 1 $, $ \beta = 0 $，且泰勒展开始终优于恒等归一化配置。
该方法具有鲁棒性与泛化能力，在CIFAR-10、ImageNet和MIT Places等多样化数据集上均表现出一致的性能提升。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。