QUICK REVIEW

[论文解读] Learning from others' mistakes: Avoiding dataset biases without modeling them

Victor Sanh, Thomas Wolf|arXiv (Cornell University)|Dec 2, 2020

Topic Modeling参考文献 48被引用 51

一句话总结

论文通过在专家模型乘积框架中利用一个弱小且带偏见的教师模型（小模型），训练一个鲁棒的主模型，使主模型能够从教师的错误中学习，而不需要显式建模偏见，从而在多 NLP 任务上提升对分布外数据的鲁棒性。

ABSTRACT

State-of-the-art natural language processing (NLP) models often learn to model dataset biases and surface form correlations instead of features that target the intended underlying task. Previous work has demonstrated effective methods to circumvent these issues when knowledge of the bias is available. We consider cases where the bias issues may not be explicitly identified, and show a method for training models that learn to ignore these problematic correlations. Our approach relies on the observation that models with limited capacity primarily learn to exploit biases in the dataset. We can leverage the errors of such limited capacity models to train a more robust model in a product of experts, thus bypassing the need to hand-craft a biased model. We show the effectiveness of this method to retain improvements in out-of-distribution settings even if no particular bias is targeted by the biased model.

研究动机与目标

显示弱学习者自然而然地捕捉数据集偏差，而无需显式偏差设计。
演示专家混合训练（PoE）可以减少对偏差的依赖并提升对分布外的鲁棒性。
探索弱学习者容量、分布内准确性与分布外泛化之间的权衡。
在 NLI（MNLI/HANS）和问答（SQuAD）基准及合成偏差情境上验证该方法。

提出的方法

使用标准交叉熵在数据上训练弱学习者 f_W。
冻结 f_W，使用专家框架的组合来训练主模型 f_M：e = w + m，其中 softmax(e) ∝ softmax(w) ⊙ softmax(m)。
优化一个多损失目标，将 CE 与 PoE CE 结合以在从弱学习者错误中学习与标准预测之间取得平衡。
改变弱学习者的容量，研究对分布内与分布外性能的影响。
在对抗/去偏数据集上评估鲁棒性（如 MNLI-HANS、Adversarial SQuAD），并分析偏差减少相关性。
讨论弱学习者的确定性与正确性在塑造主模型梯度中的作用。

实验结果

研究问题

RQ1能否使用一个弱而带偏见的模型在没有明确偏置指示的情况下揭示数据集偏差？
RQ2通过 PoE 训练主模型并冻结弱学习者，是否能在不严重损害分布内性能的前提下提升对分布外数据的泛化？
RQ3弱学习者容量如何影响跨任务的偏差缓解与鲁棒性权衡？
RQ4是否可能在不手工设计带偏见模型的情况下，减少对已知偏置信号（或未知偏置）的依赖？

主要发现

损失	MNLI	HANS	难度
Clark et al. (2019) PoE	82.97	64.67	71.16
Mahabadi et al. (2020) PoE	84.19	95.99	33.30
Utama et al. (2020) PoE	80.70	86.13	55.20
Utama et al. (2020) PoE + An.	81.90	88.40	47.13
BERT-base - CE (baseline)	84.52 ± 0.27	98.12 ± 0.62	26.74 ± 6.15
TinyBERT - Weak - CE	66.93 ± 0.12	99.80 ± 0.09	0.44 ± 0.26
BERT-base - Main - PoE	81.35 ± 0.40	81.13 ± 8.10	56.41 ± 5.91
BERT-base - Main - PoE + CE	83.32 ± 0.24	94.51 ± 0.82	41.35 ± 8.25

弱学习者往往依赖于浅层启发式和高置信度的带偏见错误，这些错误反映了已知的数据集偏差。
PoE 训练减少模型对弱学习者偏见的依赖，并提升分布外性能，分布内精度有一定权衡。
在 MNLI/HANS 上，基于 PoE 的主模型在处理基于启发式的非蕴含案例如此类问题上取得显著提升，同时保持竞争力的 MNLI 性能。
在对抗性 SQuAD 基准测试中，PoE（有无 CE）提升对抗鲁棒性，有时在多损失优化下效果更好。
改变弱学习者容量显示：更小的弱学习者更有利于平衡OD/ID性能，而更大的弱学习者可以提升OD鲁棒性，但以牺牲ID精度为代价。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。