[论文解读] Interpreting the Predictions of Complex ML Models by Layer-wise Relevance Propagation
本文提出层归因传播(LRP),一种通过将分类输出分解为输入特征贡献来解释深度神经网络预测的方法。通过在各层中应用保留约束的反向传播归因分数,LRP 生成像素级归因图,突出显示最影响模型决策的输入特征,在图像分类任务中,其在定性和定量评估上均优于敏感性分析。
Complex nonlinear models such as deep neural network (DNNs) have become an important tool for image classification, speech recognition, natural language processing, and many other fields of application. These models however lack transparency due to their complex nonlinear structure and to the complex data distributions to which they typically apply. As a result, it is difficult to fully characterize what makes these models reach a particular decision for a given input. This lack of transparency can be a drawback, especially in the context of sensitive applications such as medical analysis or security. In this short paper, we summarize a recent technique introduced by Bach et al. [1] that explains predictions by decomposing the classification decision of DNN models in terms of input variables.
研究动机与目标
- 为解决复杂机器学习模型(尤其是深度神经网络,DNN)缺乏可解释性的问题,这些模型以‘黑箱’方式做出决策。
- 开发一种方法,通过将输出函数分解为单个输入特征(如图像中的像素)的贡献,来解释 DNN 的预测。
- 提供一种忠实且直观的解释,说明为何 DNN 对特定输入赋予某一预测结果,而不仅限于对扰动的局部敏感性。
- 通过量化输入特征和上下文信息在分类决策中的相关性,实现模型比较、验证和可视化。
- 建立一个适用于多种模型和任务(包括图像分类、文本分析和 EEG 信号处理)的通用框架。
提出的方法
- LRP 使用局部重分配规则,将预测分数反向传播通过网络各层,确保每层的归因守恒。
- 核心机制采用‘alpha-beta’规则,将第 l+1 层神经元的归因传播至第 l 层神经元,其定义为 R_i = Σ_j [α·(x_i w_ij)^+ / Σ_i (x_i w_ij)^+ - β·(x_i w_ij)^- / Σ_i (x_i w_ij)^- ] · R_j。
- 参数 α 和 β 的选择满足 α - β = 1,以维持层间归因守恒,其中 α=2, β=1 可生成清晰且可解释的热力图。
- 该方法通过从输出层开始的逐层反向传递实现,将归因传播至输入层,最终生成像素级归因分数。
- 该方法基于深度泰勒分解,可扩展至各种激活函数和网络架构。
- LRP 可应用于非卷积模型,如词袋模型和 Fisher 向量/SVM 分类器,显示出广泛的适用性。
实验结果
研究问题
- RQ1如何通过将归因分配给单个输入特征(如像素)来解释深度神经网络的预测?
- RQ2与仅测量对扰动局部响应的敏感性解释相比,什么特征使 DNN 决策的忠实解释更具可信度?
- RQ3LRP 揭示的上下文(如背景或周围物体)在图像分类决策中起到多大程度的贡献?
- RQ4不同深度神经网络架构(如 CaffeNet 与 GoogleNet)如何在输入特征上分布归因?这揭示了其决策策略的哪些方面?
- RQ5在基于扰动的评估中,LRP 是否能提供比敏感性分析更可靠且更具定量意义的解释?
主要发现
- 与敏感性分析相比,LRP 生成的归因图更清晰、更直观,后者常因梯度敏感性过高而突出显示无关的背景区域。
- 在扰动分析中,LRP 识别出的相关区域导致分类分数更快下降(AOPC 值更高),表明其与实际模型行为更一致。
- 对于 'airplane' 和 'sheep' 等物体类别,大部分归因集中于物体的边界框内,表明上下文影响较小。
- 对于 'chair' 和 'sofa' 等室内场景类别,LRP 揭示了上下文在分类中起着重要作用,周围区域被分配了大量归因。
- 与 BVLC CaffeNet 相比,GoogleNet 生成的归因图更稀疏且更集中于动物面部,后者则将归因更广泛地分布于身体和毛发区域。
- 采用 α=2, β=1 的 alpha-beta 规则在多种模型和数据集上始终生成高质量热力图,证明了其鲁棒性和泛化能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。