QUICK REVIEW

[论文解读] Unshuffling Data for Improved Generalization

Damien Teney, Ehsan Abbasnejad|arXiv (Cornell University)|Feb 27, 2020

Multimodal Machine Learning Applications参考文献 82被引用 41

一句话总结

将训练数据分成多个环境以减少对虚假相关性的依赖，使用共享特征提取器对环境特定分类器进行训练，并使用方差正则化以促进环境不变的稳定特征，从而在 VQA 任务中获得更好的 OOD 泛化。

ABSTRACT

Generalization beyond the training distribution is a core challenge in machine learning. The common practice of mixing and shuffling examples when training neural networks may not be optimal in this regard. We show that partitioning the data into well-chosen, non-i.i.d. subsets treated as multiple training environments can guide the learning of models with better out-of-distribution generalization. We describe a training procedure to capture the patterns that are stable across environments while discarding spurious ones. The method makes a step beyond correlation-based learning: the choice of the partitioning allows injecting information about the task that cannot be otherwise recovered from the joint distribution of the training data. We demonstrate multiple use cases with the task of visual question answering, which is notorious for dataset biases. We obtain significant improvements on VQA-CP, using environments built from prior knowledge, existing meta data, or unsupervised clustering. We also get improvements on GQA using annotations of "equivalent questions", and on multi-dataset training (VQA v2 / Visual Genome) by treating them as distinct environments.

研究动机与目标

受到数据集偏差和视觉-语言任务中的虚假相关性导致的糟糕 OOD 泛化问题的动机与解决方案。
提出一种方法，将数据分区为训练环境，使虚假模式在各环境中不同而可靠模式保持稳定。
训练具有共享特征提取器的环境特定分类器，并加入方差正则化以促进跨环境的不变性。
在与 VQA 相关的任务上演示该方法，包括对语言偏差的鲁棒性（VQA-CP）、对等效问题的不变性（GQA），以及多数据集训练。
提供经验分析和对超参数与分区策略的敏感性研究。

提出的方法

将训练数据分成 E 个不相交的环境，使得虚假相关在环境间变化，而可靠相关保持稳定。
在环境之间训练一个共享特征提取器 f_theta，并为每个环境独立训练分类器 W_e，同时使用方差正则化使 W_e 收敛到一个共同值。
优化目标：最小化环境特定损失之和再加上惩罚项 lambda * Var_e(W_e)，其中 Var_e(W_e) 是环境特定分类器的方差度量。
在测试时，使用平均的分类器权重进行预测： Phi*(x) = ϕ_θ(x)。
采用绝对方差或相对方差的形式来稳定训练；在暖启阶段之后，可选地使用交替优化（分别更新 theta 和 W_e）。

实验结果

研究问题

RQ1如何将数据分区为环境，以使虚假相关在环境间变化而任务信号保持稳定？
RQ2将共享特征提取器与环境特定分类器相结合，并通过方差正则化，是否能学习到对分布外数据泛化更好的不变预测？
RQ3不同环境构建策略（真实问题类型、无监督聚类）对 VQA 的 OOD 性能有何影响？
RQ4所提出的方法在 VQA-CP、具有等效问题的 GQA，以及多数据集 VQA 设置中的表现如何？
RQ5方差正则化权重与优化方案对结果有多大影响？

主要发现

方法	验证集（其他）	测试集（其他）
Baseline	54.74	43.33
Environments: random; rel. var., no alt. opt.	53.34	43.51
Environments: clustered questions; rel. var., no alt. opt.	54.10	46.35
Environments: question groups ; rel. var., no alt. opt.	53.87	47.60
+ Alternating optimization (0 warm-up epoch)	54.00	47.71
+ Alternating optimization (2 warm-up epochs)	53.90	47.82
+ Alternating optimization (4 warm-up epochs)	53.98	48.06
+ Alternating optimization (6 warm-up epochs)	53.86	47.38
Without variance regularizer	40.76	39.14
With absolute variance regularizer	51.44	46.17

与基线相比，在 VQA-CP 上有显著改进，尤其是对于“ Other” 类问题，使用所提出的基于环境的方法。
使用真实问题类型的环境获得强劲提升；对问题进行无监督聚类也获得显著改进，尽管略低于真实类型。
方差正则化至关重要；相对方差正则化略优于绝对方差，交替优化方案带来适度的额外增益。
在随机分区的环境上进行训练（即随机环境）并不能带来改进，强调需要信息丰富的环境构建。
在标准 VQA 分割上方法仍具竞争力，并且可以与集成方法互补；在分布外泛化任务（VQA-CP）中的改进最为明显。
在 GQA 上，使用等价问题注释提升鲁棒性；在多数据集 VQA（VQA v2 / Visual Genome）中，将数据集视为独立环境可带来小幅增益。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。