[论文解读] Unlearn Dataset Bias in Natural Language Inference by Fitting the Residual
该论文提出 DRiFt,一种用于自然语言推理(NLI)的去偏方法,通过训练模型拟合有偏模型的残差,从而实现对数据集偏见的去学习,重点关注有偏特征失效的困难样本。该方法在挑战数据集上表现更优,同时在标准基准测试上保持强劲性能,展现出对由否定词等虚假线索引起的数据分布偏移的鲁棒性。
Statistical natural language inference (NLI) models are susceptible to learning dataset bias: superficial cues that happen to associate with the label on a particular dataset, but are not useful in general, e.g., negation words indicate contradiction. As exposed by several recent challenge datasets, these models perform poorly when such association is absent, e.g., predicting that "I love dogs" contradicts "I don't love cats". Our goal is to design learning algorithms that guard against known dataset bias. We formalize the concept of dataset bias under the framework of distribution shift and present a simple debiasing algorithm based on residual fitting, which we call DRiFt. We first learn a biased model that only uses features that are known to relate to dataset bias. Then, we train a debiased model that fits to the residual of the biased model, focusing on examples that cannot be predicted well by biased features only. We use DRiFt to train three high-performing NLI models on two benchmark datasets, SNLI and MNLI. Our debiased models achieve significant gains over baseline models on two challenge test sets, while maintaining reasonable performance on the original test sets.
研究动机与目标
- 为解决因数据集偏见(如过度依赖否定词等表面线索)导致的 NLI 模型脆弱性问题。
- 将数据集偏见形式化为在分布偏移下的标签偏移问题,其中有偏特征在测试时失去预测能力。
- 开发一种去偏方法,在减少对虚假相关性的依赖的同时,保留有用的语义信息。
- 在不降低标准基准测试性能的前提下,提升模型在分布外和挑战测试集上的泛化能力。
提出的方法
- 仅使用表面特征(如词汇重叠、否定词)进行训练,构建一个有偏模型,这些特征在训练数据中与标签相关。
- 为每个样本计算有偏模型预测结果与真实标签之间的残差损失。
- 通过最小化有偏模型损失的负梯度来训练去偏模型,重点关注残差损失较高的样本(即困难样本)。
- 在推理时使用去偏模型,有效实现对偏见的去学习,同时保留语义理解能力。
- 将该方法应用于 SNLI 和 MNLI 数据集上的三种 SOTA NLI 模型(如 BERT、CBOW、DA)。
- 利用关于数据集偏见的先验知识(如否定词关联)来指导残差拟合过程。
实验结果
研究问题
- RQ1能否通过聚焦于有偏特征失效的样本,训练出一个能够去学习数据集偏见的模型?
- RQ2残差拟合是否能提升模型在分布外和挑战测试集上的泛化能力?
- RQ3是否可以在不移除表示中潜在有用语义特征的前提下实现去偏?
- RQ4该方法在不同模型架构和 NLI 基准测试中表现如何?
主要发现
- DRiFt 显著提升了在两个挑战数据集(RTE 和 MultiNLI-Adv)上的性能,同时在标准测试集上保持了具有竞争力的准确率。
- 去偏模型在 MultiNLI-Adv 测试集上表现出显著提升,表明其对分布偏移具有更强的鲁棒性。
- 使用 DRiFt-CBOW 去偏的模型在分布内数据上表现出极小的性能下降,表明其有效保留了有用的语义信息。
- 基于 BERT 的模型在分布内样本上性能下降微乎其微,表明高容量模型能从残差拟合中获益而不损失性能。
- 该方法在挑战集上的表现优于通过最大似然估计训练的基线模型,证明其在缓解数据集偏见方面的有效性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。