[论文解读] Understanding Neural Networks through Representation Erasure
提出一种框架,通过擦除表示的某些部分(输入维度、词语或隐藏单元)并分析对决策的影响来解释神经 NLP 模型,包括一种强化学习方法,用于擦除最少的词语以改变预测。
While neural networks have been successfully applied to many natural language processing tasks, they come at the cost of interpretability. In this paper, we propose a general methodology to analyze and interpret decisions from a neural model by observing the effects on the model of erasing various parts of the representation, such as input word-vector dimensions, intermediate hidden units, or input words. We present several approaches to analyzing the effects of such erasure, from computing the relative difference in evaluation metrics, to using reinforcement learning to erase the minimum set of input words in order to flip a neural model's decision. In a comprehensive analysis of multiple NLP tasks, including linguistic feature classification, sentence-level sentiment analysis, and document level sentiment aspect prediction, we show that the proposed methodology not only offers clear explanations about neural model decisions, but also provides a way to conduct error analysis on neural models.
研究动机与目标
- 激发对神经 NLP 模型的可解释性,并识别哪些表示对决策有贡献。
- 开发一个适用于输入和隐藏表示的通用擦除分析框架。
- 展示擦除如何揭示语言特征的使用、单词重要性以及模型体系结构的行为。
- 通过识别移除后能改进决策的表示,提供错误分析工具。
提出的方法
- 定义一个重要性分数 I(d),衡量擦除一个词向量维度对正确标签对数似然的影响(Eq. 1)。
- 在从词汇到文档级别的 NLP 任务中,对输入词维度、词语或隐藏单元进行擦除。
- 在词嵌入(Word2Vec、GloVe)上对各种标注任务训练四层网络,并计算维度层面的重要性。
- 在情感分析任务中扩展到词级分析,利用擦除来识别有影响力的情感指示词。
- 引入强化学习方法,寻找能够使模型预测改变的最小词子集(Eq. 2–7)。
- 在 POS、NER、分块、前缀/后缀、词形、情感以及 hotel-Review 方面数据上进行评估,以说明可解释性和错误分析。
实验结果
研究问题
- RQ1哪些输入维度、词语和隐藏单元在各任务的神经 NLP 决策中贡献最大?
- RQ2擦除表示的部分如何影响模型性能和错误分析?
- RQ3我们是否能够用强化学习识别能够使模型决策翻转的最小词子集?
- RQ4不同架构(RNN、LSTM、Bi-LSTM)在易受擦除影响方面有何差异?
- RQ5擦除能揭示哪些关于特征表示的语言学见解(如 POS、NER、情感指示词)?
主要发现
- 擦除输入向量维度揭示任务相关的重要性模式及跨任务的共用维度。
- 基于 GloVe 的模型依赖于少量与频率相关的维度,而 Word2Vec 未出现单一主导的频率维度。
- 更高层的网络将重要性更广泛地分布,而输入层将信息集中在少数几个维度。
- 擦除情感指示词在 Bi-LSTM 上通常具有更强的影响,并且优于 RNN,表明对情感线索的关注更好。
- 移除某些词可能产生负重要性,意味着一些词会妨碍正确决策,可用于错误分析。
- 强化学习可以识别出能够翻转预测的最小词子集,为决策提供可解释的理由。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。