[论文解读] Interpreting Deep Learning Models in Natural Language Processing: A Review
本综述提供了对神经 NLP 模型解释方法的全面分类和经验性评估,覆盖基于训练、基于测试和混合方法,并讨论当前的不足之处与未来方向。
Neural network models have achieved state-of-the-art performances in a wide range of natural language processing (NLP) tasks. However, a long-standing criticism against neural network models is the lack of interpretability, which not only reduces the reliability of neural NLP systems but also limits the scope of their applications in areas where interpretability is essential (e.g., health care applications). In response, the increasing interest in interpreting neural NLP models has spurred a diverse array of interpretation methods over recent years. In this survey, we provide a comprehensive review of various interpretation methods for neural models in NLP. We first stretch out a high-level taxonomy for interpretation methods in NLP, i.e., training-based approaches, test-based approaches, and hybrid approaches. Next, we describe sub-categories in each category in detail, e.g., influence-function based methods, KNN-based methods, attention-based models, saliency-based methods, perturbation-based methods, etc. We point out deficiencies of current methods and suggest some avenues for future research.
研究动机与目标
- 为神经 NLP 模型的解释方法提供高层次的分类
- 综述基于训练、基于测试和混合的解释技术及代表性方法
- 讨论局限性、挑战和未解决的问题以指导未来研究
- 突出实际进展,如高效的影响函数实现与基于 landmark 的方法
提出的方法
- 定义一个二维分类法:训练为主 vs. 测试为主,以及联合解释 vs. 事后解释
- 详细说明基于训练的子类别:影响函数、基于 KNN 的解释,以及基于核的解释
- 详细说明基于测试的子类别:显著性图、基于注意力的解释,以及解释生成
- 描述结合训练与测试视角的混合方法
- 呈现实代表性工作及其在分类法中的适配方式
- 比较联合实现与事后实现,并提供示意框架(如注意力作为联合、事后探针)
实验结果
研究问题
- RQ1神经 NLP 模型解释方法的主要类别及子类别有哪些?
- RQ2训练为主、测试为主和混合方法在目标与机制上有何不同?
- RQ3在每一类别中有哪些优势、局限性与代表性技术?
- RQ4神经 NLP 可解释性研究中有哪些未解决的问题与未来研究方向?
主要发现
- 本文提供了对神经 NLP 可解释性方法的全面分类,将训练为主、测试为主和混合方法区分开来
- 影响函数、基于 KNN 的方法和基于核的解释是文中讨论的关键训练型技术
- 显著性图、基于注意力的解释和解释生成是核心的测试型方法综述
- 高效实现(如迭代放弃 dropout 与算法优化)显著提升了基于影响函数的解释速度,速度提升可达 80 倍
- 基于 landmark 的解释将分层相关传播与核结构结合,生成解释和模板,支持联合与事后解释
- 综述指出当前方法的不足之处,并提出未来研究方向以提升神经 NLP 可解释性的可靠性与适用性
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。