[论文解读] Understanding Black-box Predictions via Influence Functions
本文重用影响函数将模型的预测回溯到训练数据,提供一种可扩展的方法来识别对给定预测最负责任的训练点,并展示在理解、调试、数据清洗和对抗训练方面的应用。
How can we explain the predictions of a black-box model? In this paper, we use influence functions -- a classic technique from robust statistics -- to trace a model's prediction through the learning algorithm and back to its training data, thereby identifying training points most responsible for a given prediction. To scale up influence functions to modern machine learning settings, we develop a simple, efficient implementation that requires only oracle access to gradients and Hessian-vector products. We show that even on non-convex and non-differentiable models where the theory breaks down, approximations to influence functions can still provide valuable information. On linear models and convolutional neural networks, we demonstrate that influence functions are useful for multiple purposes: understanding model behavior, debugging models, detecting dataset errors, and even creating visually-indistinguishable training-set attacks.
研究动机与目标
- 促使对黑箱模型进行可解释性研究,不仅限于预测准确性。
- 提出一种通过影响函数将预测归因于训练数据的方法。
- 在非凸性和不可微性存在的现代模型中实现对影响的实用计算。
- 展示多样化的应用:模型理解、调试、数据质量以及对抗训练。
提出的方法
- 通过 Hessian-inverse 乘以损失梯度来公式化对训练样本进行增重或扰动对模型参数的影响。
- 推导关于测试损失的影响以及对训练输入或标签的扰动的闭式表达。
- 使用高效的 Hessian-向量乘积,以及共轭梯度或随机估计,在不进行显式 Hessian 逆运算的情况下计算 H^{-1} 梯度。
- 通过阻尼和平滑技术处理非凸和不可微分情况,并用 leave-one-out 重训练来验证准确性。
- 提供通过自动微分框架计算影响的实用步骤/配方。
实验结果
研究问题
- RQ1影响函数是否能在深度网络中准确识别对给定预测最负责任的训练点?
- RQ2如何在现代模型上高效地大规模计算影响?
- RQ3当凸性/可微性假设失效时,影响函数是否仍具备信息性?
- RQ4影响函数能否用于调试、数据质量检查和对抗训练数据?
- RQ5在比较不同模型时,用影响度量得到的洞察会揭示哪些关于模型行为的见解?
主要发现
- 影响函数在对数回归和 MNIST 类任务的 CNN 的预测方面与 leave-one-out 重新训练的变化高度吻合。
- 通过 Hessian-向量乘积高效计算影响,能够以 O(np) 的复杂度对训练点按影响进行排序,并可用额外的小样本估计;随机化和 CG 方法提供实际的加速。
- 影响有助于区分模型如何依赖训练数据与仅靠输入空间的邻近性,在解释预测方面优于最近邻直觉。
- 平滑不可微分损失(如 hinge)可产生准确的影响估计,而通过阻尼可以缓解非凸性。
- 基于影响函数的训练集扰动可以构造在视觉上与原样本无差异的对抗训练样本,能够改变测试预测,凸显安全性考虑。
- 影响函数能成功识别领域不匹配原因和标注错误的数据,有助于调试和数据清洗。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。