QUICK REVIEW

[论文解读] Explaining Black Box Predictions and Unveiling Data Artifacts through Influence Functions

Xiaochuang Han, Byron Wallace|arXiv (Cornell University)|May 14, 2020

Explainable Artificial Intelligence (XAI)参考文献 37被引用 19

一句话总结

本文提出将影响函数作为梯度类显著性图的补充方法，用于解释黑箱NLP模型，特别是在自然语言蕴含（NLI）等复杂推理任务中。结果表明，影响函数在解释NLI模型决策方面优于显著性图，并提出了一种新的定量度量方法，利用影响分数检测训练集中数据人工制品的影响。

ABSTRACT

Modern deep learning models for NLP are notoriously opaque. This has motivated the development of methods for interpreting such models, e.g., via gradient-based saliency maps or the visualization of attention weights. Such approaches aim to provide explanations for a particular model prediction by highlighting important words in the corresponding input text. While this might be useful for tasks where decisions are explicitly influenced by individual tokens in the input, we suspect that such highlighting is not suitable for tasks where model decisions should be driven by more complex reasoning. In this work, we investigate the use of influence functions for NLP, providing an alternative approach to interpreting neural text classifiers. Influence functions explain the decisions of a model by identifying influential training examples. Despite the promise of this approach, influence functions have not yet been extensively evaluated in the context of NLP, a gap addressed by this work. We conduct a comparison between influence functions and common word-saliency methods on representative tasks. As suspected, we find that influence functions are particularly useful for natural language inference, a task in which 'saliency maps' may not have clear interpretation. Furthermore, we develop a new quantitative measure based on influence functions that can reveal artifacts in training data.

研究动机与目标

评估影响函数在解释基于深度变换器的模型（如BERT）时的可靠性。
比较影响函数与基于梯度的显著性图在不同NLP任务中解释预测结果的表现。
探究影响函数是否能够检测并量化训练数据中数据人工制品的影响，特别是在NLI任务中。
提出一种基于影响函数的新定量方法，用于测量假设数据人工制品对模型预测的影响。
评估影响函数在复杂语义任务中是否能提供比输入级显著性方法更忠实、更有意义的解释。

提出的方法

将影响函数框架（Koh & Liang, 2017）适配至深度NLP模型，特别是基于BERT的分类器，且不修改模型架构。
使用基于Hessian的近似方法高效计算每个训练样本对测试预测的影响。
根据影响分数对训练样本进行排序，以识别最影响特定预测的训练实例。
在情感分析和NLI任务中，将基于影响的解释与基于梯度的显著性图（如梯度×输入）进行比较。
基于影响分数开发一种新的定量度量方法，用于评估数据人工制品（如词汇线索）对模型预测的影响程度。
使用诊断数据集（如McCoy et al., 2019）评估影响分数与模型对人工制品依赖程度的相关性。

实验结果

研究问题

RQ1影响函数的近似方法是否可信赖地用于解释基于深度变换器的模型（如BERT）的预测？
RQ2在不同NLP任务中，基于影响函数的解释与基于梯度的显著性图的一致性如何？
RQ3影响函数在多大程度上能够揭示并量化训练数据中人工制品对模型预测的影响？
RQ4在自然语言蕴含等复杂推理任务中，影响函数是否可作为比输入级显著性方法更忠实的解释方法？
RQ5如何系统性地利用影响函数检测并分析NLP数据集中的人工制品？

主要发现

尽管计算成本较高，影响函数近似方法在解释基于BERT的模型预测方面仍可靠且有效。
在情感分析任务中，影响函数与基于梯度的显著性图在识别重要输入词元方面表现出高度一致性。
在自然语言蕴含（NLI）任务中，影响函数与显著性图的解释结果显著分化，影响函数提供了更合理、更具上下文一致性的解释。
影响函数特别擅长识别包含词汇线索或人工制品的训练样本，例如与标签存在相关性的特定词语。
基于影响函数提出的定量度量方法成功检测并量化了数据人工制品的影响，例如在NLI数据集中特定词语（如'entailment'或'contradiction'）的存在。
影响函数揭示出，模型通常依赖于训练数据中的表面模式，例如假设或前提中特定词语的出现，而非深层语义推理。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。