QUICK REVIEW

[论文解读] Teach Me to Explain: A Review of Datasets for Explainable Natural Language Processing

Sarah Wiegreffe, Ana Marasović|arXiv (Cornell University)|Feb 23, 2021

Topic Modeling被引用 42

一句话总结

一项调查，识别了65个 ExNLP 数据集，分为高亮（highlights）、自由文本（free-text）和结构化解释，对收集方法进行分析并提出最佳实践建议。

ABSTRACT

Explainable NLP (ExNLP) has increasingly focused on collecting human-annotated textual explanations. These explanations are used downstream in three ways: as data augmentation to improve performance on a predictive task, as supervision to train models to produce explanations for their predictions, and as a ground-truth to evaluate model-generated explanations. In this review, we identify 65 datasets with three predominant classes of textual explanations (highlights, free-text, and structured), organize the literature on annotating each type, identify strengths and shortcomings of existing collection methodologies, and give recommendations for collecting ExNLP datasets in the future.

研究动机与目标

定义 ExNLP 数据集和术语。
按解释类型（高亮、自由文本、结构化）对数据集进行编目和分类。
分析数据收集方法及其对建模与评估的影响。
讨论质量控制挑战以及完整性、充分性和可信度在其中的作用。
为未来的 ExNLP 数据集构建与文档提供建议和最佳实践。

提出的方法

系统地识别并将 ExNLP 数据集分类为高亮、自由文本和结构化解释。
提供一个实时的、由社区贡献的网站，列出数据集及其属性。
批判性分析标注方法，包括高亮的充分性和完整性。
检验模板式与结构化解释在建模中的作用。
提出数据集的质量控制实践和文档标准（数据说明书）。

实验结果

研究问题

RQ1ExNLP 数据集中存在哪些类型的文本解释，它们如何定义？
RQ2ExNLP 解释是如何收集的（众包、自动、专家），以及它们的权衡？
RQ3每种解释类型当前收集方法的优点与缺点？
RQ4收集假设如何影响ExNLP的下游建模与评估？
RQ5哪些最佳实践和建议可以提高 ExNLP 数据集的质量和可靠性？

主要发现

识别了跨三个解释类别的65个 ExNLP 数据集：高亮、自由文本和结构化解释。
高亮在颗粒度上差异较大，可能并非对预测提供充分、完整的理由。
自由文本解释很普遍，但可能带来质量控制挑战；它们的设计影响建模假设。
结构化解释越来越多地被采用，以强加任务相关推理，弥合自由文本与基于规则的推理之间的差距。
大量数据收集依赖于众包或专家标注，建议记录收集过程并使用数据说明书。
提出如 Collect-And-Edit 之类的方法，以提高解释质量和多样性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。