[论文解读] Learning the Difference that Makes a Difference with Counterfactually-Augmented Data
作者通过众包创建对抗事实编辑的情感和NLI数据,以区分虚假信号与真实信号,结果显示在原始数据和对抗性修订数据混合训练的模型对虚假线索更鲁棒。
Despite alarm over the reliance of machine learning systems on so-called spurious patterns, the term lacks coherent meaning in standard statistical frameworks. However, the language of causality offers clarity: spurious associations are due to confounding (e.g., a common cause), but not direct or indirect causal effects. In this paper, we focus on natural language processing, introducing methods and resources for training models less sensitive to spurious patterns. Given documents and their initial labels, we task humans with revising each document so that it (i) accords with a counterfactual target label; (ii) retains internal coherence; and (iii) avoids unnecessary changes. Interestingly, on sentiment analysis and natural language inference tasks, classifiers trained on original data fail on their counterfactually-revised counterparts and vice versa. Classifiers trained on combined datasets perform remarkably well, just shy of those specialized to either domain. While classifiers trained on either original or manipulated data alone are sensitive to spurious features (e.g., mentions of genre), models trained on the combined data are less sensitive to this signal. Both datasets are publicly available.
研究动机与目标
- 以因果性启发的视角看待NLP中的虚假关联,并将虚假信号与非虚假信号区分开。
- 引入一个人机循环的人机循环的数据收集过程,对文档进行编辑以符合对抗事实标签,同时保持连贯性。
- 用对抗事实修订的示例扩展IMDb情感与SNLI数据集,以研究模型鲁棒性。
- 评估在原始、修订和组合数据上训练的模型在分布偏移和领域迁移下的表现。
提出的方法
- 众包工作者编辑文本,使对抗事实标签适用,同时保持连贯性并尽量减少不必要的改动。
- 收集对抗事实修订的情感数据(IMDb)和NLI数据(SNLI),扩展现有资源。
- 在原始、修订和组合数据集上训练并评估多种模型(SVM、NB、Bi-LSTM、ELMo-LSTM、BERT)。
- 比较在域内和域外的性能,并分析对虚假线索依赖性的变化。
- 检查编辑模式和特征重要性,以确定哪些线索在增强后变得不可预测。
实验结果
研究问题
- RQ1对 NLP 任务而言,对抗事实编辑的数据是否能将虚假信号与真实预测信号区分开?
- RQ2在原始数据与对抗事实修订数据结合训练的模型是否对修订后的输入或域外输入具有更好的泛化?
- RQ3不同模型家族(线性、Bi-LSTM、ELMo、BERT)在情感分析和NLI中对对抗事实增强数据有何反应?
- RQ4人类在修改标签时使用的定性编辑模式是什么,这些如何影响学习到的特征?
主要发现
- 在修订数据上训练的模型在修订数据上表现良好,但在原始数据上表现较差,反之亦然。
- 将训练数据结合后,在原始和修订数据上通常都表现良好,往往接近各自单域模型的约3点差距。
- 虚假线索(如情感中的体裁提及)在训练中包含修订数据后失去预测力。
- BERT 对来自对抗性修订的性能下降的韧性更强,尽管将数据结合的收益仍然明显。
- 基于SNLI的实验表明,假设-仅信号或前提-仅信号都很脆弱;在RP和RH变体上进行微调需要同时关注前提和假设以实现稳健性能。
- 域外测试(Amazon、Twitter、Yelp)显示对IMDb进行对抗性增强训练的模型通常比仅用原始数据训练的模型表现更好。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。