[论文解读] Representer Point Selection for Explaining Deep Neural Networks
本文提出 representer points:带有正负 representer 值的训练样本,线性分解神经网络的前激活输出,从而实现可扩展的、实时的预测解释。
We propose to explain the predictions of a deep neural network, by pointing to the set of what we call representer points in the training set, for a given test point prediction. Specifically, we show that we can decompose the pre-activation prediction of a neural network into a linear combination of activations of training points, with the weights corresponding to what we call representer values, which thus capture the importance of that training point on the learned parameters of the network. But it provides a deeper understanding of the network than simply training point influence: with positive representer values corresponding to excitatory training points, and negative values corresponding to inhibitory points, which as we show provides considerably more insight. Our method is also much more scalable, allowing for real-time feedback in a manner not feasible with influence functions.
研究动机与目标
- 通过 representer 分解将神经网络预测归因于训练点来解释预测。
- 提供一种可扩展的替代方法,使用 influence functions 来识别有影响力的训练样本。
- 区分兴奋性(正)和抑制性(负)的 representer points,以获得更深的模型洞察。
- 展示在数据集调试、误分类理解和敏感性分析方面的实际效用。
提出的方法
- 假设一个具有两部分参数化的神经网络:Phi(x, Theta)=Theta1 f,其中 f=Phi2(x, Theta2)。
- 推导 representer 分解:Phi(x_t, Theta*) = sum_i alpha_i k(x_t, x_i, alpha_i),其中 alpha_i = -(1/(2 lambda n)) * dL(x_i, y_i, Theta)/dPhi(x_i, Theta) 且 k(x_t, x_i, alpha_i) = alpha_i f_i^T f_t。
- 在 Theta1 上施加 L2 正则化,以确保在驻点处保持 representer 形式。
- 提出实际训练(式(3))以获得 Theta*,从而对任意测试点计算 representer 值。
- 扩展为对给定的预训练模型生成 representer points,方法是通过求解一个带有合适损失函数(softmax 或 ReLU)的凸问题来保持 Phi(x_i, Theta) 与给定模型对齐。
- 讨论实现细节和实时解释及可解释性方面的实际考量。
实验结果
研究问题
- RQ1深度神经网络的预测是否可以表达为训练点激活的线性组合,权重可训练(representer 值)?
- RQ2正的 representer 值是否指示兴奋性训练点,负值指示抑制性点,从而揭示模型在给定测试实例上的行为?
- RQ3基于 representer 的解释是否可扩展且比 influence functions 更具信息量,用于识别有影响力的训练样本?
- RQ4representer 值是否有助于数据集调试、误分类分析和敏感性分解?
- RQ5该框架是否可以应用于预训练模型,并在合适的凸损失下扩展到多样的激活函数(softmax、ReLU)?
主要发现
- 预激活预测可以分解为对训练点激活的加权和,权重(representer 值)表示训练点的影响。
- 正的 representer 值对应于支持预测的兴奋性训练点,负值对应于抑制预测的抑制性点。
- 与 influence functions 相比,representer 方法更具可扩展性,能够实现近实时解释,计算成本更有利。
- representer points 使得更清晰地可视化模型为何做出或未做出某个预测,并且可以揭示与误分类相关的数据集问题。
- 在 CIFAR-10 和 AwA 上的实验展示了有意义、可解释的兴奋性/抑制性示例,以及超越传统方法的稳健定性洞察。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。