[论文解读] Robust Natural Language Inference Models with Example Forgetting.
本文提出使用示例遗忘度——一种衡量训练样本难度的指标——来提升基于 BERT 的自然语言推理模型的鲁棒性。通过在训练过程中过滤掉容易被遗忘的样本,该方法增强了模型在 HANS 等分布偏移基准上的泛化能力,即使在优化后,大尺寸 BERT 模型也表现出更高的鲁棒性。
We investigate whether example forgetting, a recently introduced measure of hardness of examples, can be used to select training examples in order to increase robustness of natural language understanding models in a natural language inference task (MNLI). We analyze forgetting events for MNLI and provide evidence that forgettable examples under simpler models can be used to increase robustness of the recently proposed BERT model, measured by testing an MNLI trained model on HANS, a curated test set that exhibits a shift in distribution compared to the MNLI test set. Moreover, we show that, the “large” version of BERT is more robust than its “base” version but its robustness can still be improved with our approach.
研究动机与目标
- 探究示例遗忘度是否可用于提升自然语言推理模型的鲁棒性。
- 评估基于遗忘度分数选择样本是否能提升在分布偏移下的泛化能力。
- 比较 BERT base 与 BERT large 模型的鲁棒性,并评估所提方法是否对两者均有提升作用。
提出的方法
- 示例遗忘度定义为模型在微调后对训练样本的置信度下降程度。
- 通过在 MNLI 数据上训练一个更简单的模型(如 BiLSTM)来识别容易被遗忘的样本。
- 使用过滤后的 MNLI 数据子集(排除最易被遗忘的样本)对 BERT 模型进行重新训练。
- 通过 HANS 基准评估鲁棒性,该基准用于检测模型是否存在捷径学习和分布偏移问题。
- 将该方法应用于 BERT base 和 BERT large 两种变体,以比较性能提升效果。
实验结果
研究问题
- RQ1能否利用示例遗忘度识别并过滤掉难以学习或具有误导性的训练样本,从而提升模型鲁棒性?
- RQ2在 BERT 预训练阶段过滤掉易被遗忘的样本,是否能提升其在 HANS 等分布外基准上的表现?
- RQ3该方法带来的鲁棒性提升是否在不同 BERT 模型架构(如 base 与 large)中均具有一致性?
主要发现
- 从 MNLI 训练数据中过滤掉易被遗忘的样本后,BERT 在 HANS 基准上的表现得到提升,表明其鲁棒性增强。
- BERT large 模型本身比 BERT base 具有更高的内在鲁棒性,但两者均从基于示例遗忘度的过滤方法中获益。
- 过滤后模型对语言学捷径的依赖性降低,这从 HANS 分数的提升中得到验证。
- 尽管大尺寸 BERT 模型在 HANS 上已表现良好,但该方法带来的性能提升仍可测量且具有一致性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。