QUICK REVIEW

[论文解读] Teach Me to Explain: A Review of Datasets for Explainable NLP.

Sarah Wiegreffe, Ana Marasović|arXiv (Cornell University)|Feb 24, 2021

Topic Modeling参考文献 143被引用 59

一句话总结

本文综述了可解释自然语言处理（ExNLP）领域的数据集，将人工标注的解释分为三类——高亮、自由文本和结构化，并整合了关于其收集、使用与评估的研究发现。基于现有文献及数据增强、模型训练和解释质量评估方面的实践经验，本文提出了未来数据集构建的建议。

ABSTRACT

Explainable NLP (ExNLP) has increasingly focused on collecting human-annotated explanations. These explanations are used downstream in three ways: as data augmentation to improve performance on a predictive task, as a loss signal to train models to produce explanations for their predictions, and as a means to evaluate the quality of model-generated explanations. In this review, we identify three predominant classes of explanations (highlights, free-text, and structured), organize the literature on annotating each type, point to what has been learned to date, and give recommendations for collecting ExNLP datasets in the future.

研究动机与目标

识别并分类可解释自然语言处理中使用的三种主要人工标注解释类型：高亮、自由文本和结构化解释。
整理并综合现有文献中关于各类解释标注的研究，突出方法论趋势与挑战。
总结当前研究中关于解释使用方式的关键发现，特别是作为数据增强、损失信号和评估指标的应用。
基于实证洞察与最佳实践，为未来高质量ExNLP数据集的构建提供可操作的建议。
通过改进数据集设计与标注标准，支持开发更可靠、可解释且泛化能力更强的自然语言处理模型。

提出的方法

对可解释自然语言处理中现有数据集与标注实践进行系统性综述，重点关注三类解释形式：高亮、自由文本和结构化。
根据标注格式、任务类型及下游应用（如数据增强、模型训练、评估）对数据集进行分类。
分析解释在三种主要用途中的应用：通过数据增强提升模型性能，通过损失信号训练模型生成解释，以及评估模型生成的解释。
整合多項研究的发现，识别解释收集过程中常见的挑战、设计模式与最佳实践。
提出未来数据集构建的建议，强调一致性、可扩展性以及与模型评估需求的对齐。
采用定性与比较分析方法，评估现有数据集在支持ExNLP研究方面的质量与实用性。

实验结果

研究问题

RQ1自然语言处理中主导的人工标注解释形式是什么？它们在结构与目的上如何不同？
RQ2解释在下游自然语言处理任务中目前如何被使用？其对模型性能与可解释性有何影响？
RQ3在高亮、自由文本与结构化解释的标注过程中，浮现了哪些方法论模式与挑战？
RQ4从现有数据集中可以总结出哪些经验教训，以指导未来ExNLP数据集的设计？
RQ5未来数据集应如何优化，以更好地支持数据增强、模型训练与解释质量评估？

主要发现

高亮、自由文本与结构化解释代表了ExNLP中人工标注解释的三大主要类别，各自具有独特的标注实践与应用场景。
解释常被用作数据增强手段，以提升模型在预测任务上的性能，尤其在低资源场景下效果显著。
在训练过程中将解释作为损失信号，有助于使模型生成的解释与人工标注结果对齐，从而提升忠实度与可解释性。
当以人工标注的解释作为黄金标准进行对比时，对模型生成解释的评估最为有效。
尽管已有进展，但各数据集在标注指南与评估协议方面仍存在不一致性，限制了可复现性与可比性。
未来数据集应优先采用标准化、可扩展且多样化的标注协议，以支持稳健的模型开发与评估。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。