[论文解读] Teach Me to Explain: A Review of Datasets for Explainable Natural Language Processing
一项调查,识别了65个 ExNLP 数据集,分为高亮(highlights)、自由文本(free-text)和结构化解释,对收集方法进行分析并提出最佳实践建议。
Explainable NLP (ExNLP) has increasingly focused on collecting human-annotated textual explanations. These explanations are used downstream in three ways: as data augmentation to improve performance on a predictive task, as supervision to train models to produce explanations for their predictions, and as a ground-truth to evaluate model-generated explanations. In this review, we identify 65 datasets with three predominant classes of textual explanations (highlights, free-text, and structured), organize the literature on annotating each type, identify strengths and shortcomings of existing collection methodologies, and give recommendations for collecting ExNLP datasets in the future.
研究动机与目标
- 定义 ExNLP 数据集和术语。
- 按解释类型(高亮、自由文本、结构化)对数据集进行编目和分类。
- 分析数据收集方法及其对建模与评估的影响。
- 讨论质量控制挑战以及完整性、充分性和可信度在其中的作用。
- 为未来的 ExNLP 数据集构建与文档提供建议和最佳实践。
提出的方法
- 系统地识别并将 ExNLP 数据集分类为高亮、自由文本和结构化解释。
- 提供一个实时的、由社区贡献的网站,列出数据集及其属性。
- 批判性分析标注方法,包括高亮的充分性和完整性。
- 检验模板式与结构化解释在建模中的作用。
- 提出数据集的质量控制实践和文档标准(数据说明书)。
实验结果
研究问题
- RQ1ExNLP 数据集中存在哪些类型的文本解释,它们如何定义?
- RQ2ExNLP 解释是如何收集的(众包、自动、专家),以及它们的权衡?
- RQ3每种解释类型当前收集方法的优点与缺点?
- RQ4收集假设如何影响ExNLP的下游建模与评估?
- RQ5哪些最佳实践和建议可以提高 ExNLP 数据集的质量和可靠性?
主要发现
- 识别了跨三个解释类别的65个 ExNLP 数据集:高亮、自由文本和结构化解释。
- 高亮在颗粒度上差异较大,可能并非对预测提供充分、完整的理由。
- 自由文本解释很普遍,但可能带来质量控制挑战;它们的设计影响建模假设。
- 结构化解释越来越多地被采用,以强加任务相关推理,弥合自由文本与基于规则的推理之间的差距。
- 大量数据收集依赖于众包或专家标注,建议记录收集过程并使用数据说明书。
- 提出如 Collect-And-Edit 之类的方法,以提高解释质量和多样性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。