[论文解读] On the Value of Out-of-Distribution Testing: An Example of Goodhart's Law
本文批评 VQA-CP OOD 基准,揭示三个实验缺陷,展示简单基线可以超越最新方法,并提出在 OOD 测试下正确评估泛化性的指南。
Out-of-distribution (OOD) testing is increasingly popular for evaluating a machine learning system's ability to generalize beyond the biases of a training set. OOD benchmarks are designed to present a different joint distribution of data and labels between training and test time. VQA-CP has become the standard OOD benchmark for visual question answering, but we discovered three troubling practices in its current use. First, most published methods rely on explicit knowledge of the construction of the OOD splits. They often rely on ``inverting'' the distribution of labels, e.g. answering mostly 'yes' when the common training answer is 'no'. Second, the OOD test set is used for model selection. Third, a model's in-domain performance is assessed after retraining it on in-domain splits (VQA v2) that exhibit a more balanced distribution of labels. These three practices defeat the objective of evaluating generalization, and put into question the value of methods specifically designed for this dataset. We show that embarrassingly-simple methods, including one that generates answers at random, surpass the state of the art on some question types. We provide short- and long-term solutions to avoid these pitfalls and realize the benefits of OOD evaluation.
研究动机与目标
- 激励在 VQA 及类似任务中对泛化能力进行强健评估,超越训练偏差。
- 识别并阐明三处实用缺陷,破坏像 VQA-CP 这样的 OOD 基准。
- 证明由于这些缺陷,极其简单的基线在 VQA-CP 上可以超过复杂方法。
- 提出具体建议,保持 OOD 评估的价值并指导未来基准设计。
提出的方法
- 描述并评估简单基线,包括随机预测和翻转随机预测,以揭示 OOD 利用如何发生。
- 引入并评估一系列基线和简单正则化思路(例如学习基线、最高答案屏蔽、随机图像正则化器),以测试它们对 OOD 与 in-domain 性能的影响。
- 分析将 OOD 测试集用于模型选择和在域内划分上再训练如何扭曲 OOD 基准的初衷。
- 提供经验证据,显示高 OOD 性能可能以在域内性能为代价,特别是在对 VQA-v2 进行再训练时。
实验结果
研究问题
- RQ1目前的 VQA-CP 评估做法如何使 OOD 划分被无意利用?
- RQ2将 OOD 测试集用于模型选择对报告的泛化结果有何影响?
- RQ3在域内划分上再训练(如 VQA-v2)如何影响 OOD 与域内性能评估?
- RQ4哪些基线或方法可以揭示并缓解对 OOD 基准的误用,指导更优的基准设计?
主要发现
- 极其简单的方法,包括随机预测,通过利用数据集偏差,在某些 VQA-CP 问题类型上超越了最新方法。
- 使用 OOD 测试集进行模型选择会导致自适应过拟合和夸大的 OOD 分数,掩盖真实泛化性。
- 在 VQA-v2 上再训练以评估域内性能,会隐藏 OOD 效用的显著下降,质疑所声称的泛化益处。
- 一个简单的随机-翻转基线在是/否和数字问题上可达到非常高的 OOD 准确率,突显是/否/数字问题驱动了表观提升而非真正理解。
- 一个随机图像正则化器可以调节域内与 OOD 性能之间的权衡,但其效益常被是/否/数字问题主导,且在各指标上并非始终有益。
- 作者主张保留域内验证数据并将分析聚焦于非是/否/数字问题,以更好地反映真实泛化并抵制对基准的游戏化。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。