[论文解读] A Survey of the State of Explainable AI for Natural Language Processing
本综述评估自然语言处理中的可解释AI(XAI)方法,分类解释类型、技术和可视化,并讨论评估空白与未来方向。
Recent years have seen important advances in the quality of state-of-the-art models, but this has come at the expense of models becoming less interpretable. This survey presents an overview of the current state of Explainable AI (XAI), considered within the domain of Natural Language Processing (NLP). We discuss the main categorization of explanations, as well as the various ways explanations can be arrived at and visualized. We detail the operations and explainability techniques currently available for generating explanations for NLP model predictions, to serve as a resource for model developers in the community. Finally, we point out the current gaps and encourage directions for future work in this important research area.
研究动机与目标
- 提供一个结构化的概览,阐明在NLP中可解释性是如何被定义和使用的。
- 总结解释的主要类别(局部/全局、自解释/事后解释)及其含义。
- 详细介绍在NLP模型中推导和可视化解释的常用技术。
- 识别常用的评估方法以及阻碍对解释进行标准化评估的差距。
- 提出推进NLP可解释性的未来研究方向。
提出的方法
- 将NLP XAI工作分类为局部/全局和自解释/事后解释类别。
- 整理并总结可解释性技术(特征重要性、代理模型、示例驱动、溯源、声明性归纳)。
- 描述实现可解释性的操作(一阶导数显著性、层级相关传播、输入扰动、注意力、LSTM门控信号、可解释性感知架构)。
- 概述可视化技术(显著性热图、原始声明性表示、自然语言解释、原始示例)。
- 评审评估方法(非正式评估、真实值对比、人工评估、反事实/擦除测试)并讨论对预测过程的覆盖度。
实验结果
研究问题
- RQ1用于解释NLP模型预测的主要解释类别有哪些?
- RQ2在NLP中最常用的可解释性技术和可视化方法有哪些?
- RQ3解释通常如何评估,当前评估实践存在哪些差距?
- RQ4哪些未来方向对推进XAI在NLP中具有潜力?
- RQ5解释对预测过程的覆盖度在不同方法之间有何差异?
主要发现
- 局部解释在文献中占主导地位(约46篇/50篇论文),相较之下全局解释(4篇论文)。
- 特征重要性和代理模型方法是NLP中最常用的可解释性技术。
- 注意力机制和一阶导数显著性在NLP的特征重要性解释中被广泛使用。
- 对解释的评估通常是非正式的或缺乏标准化度量,在部分论文中使用了真实值比较和人工评估。
- 呼吁使用更清晰的术语、扩展评估指标,并在解释中考虑保真度和目标最终用户。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。