QUICK REVIEW

[论文解读] Don't Take the Easy Way Out: Ensemble Based Methods for Avoiding Known Dataset Biases

Christopher Clark, Mark Yatskar|arXiv (Cornell University)|Sep 9, 2019

Multimodal Machine Learning Applications参考文献 58被引用 30

一句话总结

本文提出一种基于集成的方法，通过缓解已知的数据集偏差来提升模型的鲁棒性。该方法首先训练一个仅学习偏差的模型以捕捉表面模式，随后将其与一个学习替代性、可泛化策略的鲁棒模型进行集成——在分布外视觉问答基准上实现了最高12个百分点的性能提升，并在五个多样化数据集上均表现出一致的改进。

ABSTRACT

State-of-the-art models often make use of superficial patterns in the data that do not generalize well to out-of-domain or adversarial settings. For example, textual entailment models often learn that particular key words imply entailment, irrespective of context, and visual question answering models learn to predict prototypical answers, without considering evidence in the image. In this paper, we show that if we have prior knowledge of such biases, we can train a model to be more robust to domain shift. Our method has two stages: we (1) train a naive model that makes predictions exclusively based on dataset biases, and (2) train a robust model as part of an ensemble with the naive one in order to encourage it to focus on other patterns in the data that are more likely to generalize. Experiments on five datasets with out-of-domain test sets show significantly improved robustness in all settings, including a 12 point gain on a changing priors visual question answering dataset and a 9 point gain on an adversarial question answering test set.

研究动机与目标

解决神经网络模型依赖训练数据中表面化、非泛化性模式的问题，这些模式在分布偏移下会失效。
提升模型在分布外和对抗性测试集上的鲁棒性，此时偏差模式不再成立。
利用人类识别出的数据集偏差作为工具，训练出更优泛化能力的模型，避免依赖这些偏差。
开发一种集成训练框架，激励主模型学习替代性、更具泛化能力的策略。
在多种任务（包括文本蕴涵、阅读理解与视觉问答）上评估该方法，涵盖多个偏差鲁棒性基准。

提出的方法

仅使用与偏差相关联的输入特征（如关键词存在或问题类型先验），训练一个仅学习偏差的模型，以利用已知的数据集偏差。
在训练过程中，将预训练的仅学习偏差的模型作为组件，与鲁棒模型进行集成。
应用集成技术（如专家乘积或可学习混合）来结合预测结果，其中鲁棒模型被鼓励避免复制仅学习偏差模型的行为。
在可学习混合方法中引入熵正则化惩罚项，以防止模型过度依赖仅学习偏差的组件。
在推理阶段仅使用鲁棒模型的预测结果，确保其不受仅学习偏差组件的影响。
构建合成数据集和真实世界挑战数据集（如 VQA-CP、TriviaQA-CP、HANS、对抗性 SQuAD），以评估在分布偏移下的鲁棒性。

实验结果

研究问题

RQ1能否通过在训练过程中显式建模并消除已知数据集偏差，来提升模型对分布偏移的鲁棒性？
RQ2将鲁棒模型与仅学习偏差的模型进行集成训练，是否能比标准训练方式带来更好的泛化性能？
RQ3不同集成策略（如专家乘积与带正则化的可学习混合）在缓解偏差方面的表现如何比较？
RQ4该方法在涵盖不同类型已知偏差的多样化自然语言处理与视觉任务中，其泛化能力如何？
RQ5在不同偏差类型和数据集上，域内性能与域外鲁棒性之间的权衡是否有所不同？

主要发现

带熵正则化的可学习混合集成方法表现最强，在 VQA-CP 数据集上将分布外准确率最高提升了12个百分点。
在对抗性 SQuAD 基准上，该方法相比强基线模型实现了9个百分点的性能提升，显著优于先前工作。
在 TriviaQA-CP 上，该方法在人物聚焦测试集上实现了6个百分点的提升，在地点聚焦集上实现了4.5个百分点的提升，且域内性能下降极小。
仅学习偏差的专家乘积方法表现出稳定但适中的提升，而重加权基线方法在大多数数据集上效果较差。
带熵惩罚的可学习混合方法显著降低了对仅学习偏差模型的依赖，平均 g(x_i) 值从 5.01 降至 0.25，表明实现了有效的解耦。
该方法在五个多样化数据集（包括合成数据集、对抗性数据集和变化先验基准）上均表现有效，证明了其广泛适用性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。