[论文解读] Understanding the Failure Modes of Out-of-Distribution Generalization
论文揭示 ERM 在 OoD 泛化中的两种基本失效模式——由伪相关引起的几何和统计偏斜,并在易于学习的任务上给出理论与实验分析,显示 ERM 对伪特征的依赖。它还在 MNIST/CIFAR10 任务上验证了这些模式,并探索对神经网络的影响。
Empirical studies suggest that machine learning models often rely on features, such as the background, that may be spuriously correlated with the label only during training time, resulting in poor accuracy during test-time. In this work, we identify the fundamental factors that give rise to this behavior, by explaining why models fail this way {\em even} in easy-to-learn tasks where one would expect these models to succeed. In particular, through a theoretical study of gradient-descent-trained linear classifiers on some easy-to-learn tasks, we uncover two complementary failure modes. These modes arise from how spurious correlations induce two kinds of skews in the data: one geometric in nature, and another, statistical in nature. Finally, we construct natural modifications of image classification datasets to understand when these failure modes can arise in practice. We also design experiments to isolate the two failure modes when training modern neural networks on these datasets.
研究动机与目标
- 定义领域泛化设定和 ERM 基线。
- 在易于学习的任务中识别 ERM 由于伪相关而失效的情形。
- 在理论上孤立出两种失效模式:几何偏斜和统计偏斜。
- 在 MNIST/CIFAR10 和神经网络上进行实证验证。
- 提供数据集修改和实验以孤立失效机制。
提出的方法
- 在易于学习的任务上对 ERM 和最大间隔训练建模,使用完全可预测的不变量特征。
- 引入约束以定义易于学习的领域泛化任务(完全可预测的不变量特征、相同的不变量分布、条件独立、两个数值的伪特征、标识 Phi)。
- 理论推导边界,显示伪特征如何在几何偏斜下影响最大间隔解(定理草案)。
- 分析逻辑回归/指数损失的有限时间梯度下降动力学,揭示统计偏斜(收敛界)。
- 通过在 MNIST/CIFAR10 类任务上增加范数来证明几何偏斜,并表现出对伪特征的依赖。
- 描述并引用可复现实验的代码。
实验结果
研究问题
- RQ1为什么在 OoD 下即使完全可预测的不变量特征也会导致 ERM 泛化失败?
- RQ2驱动对伪特征依赖的基本几何与统计因素是什么?
- RQ3易于学习的任务是否会出现 ERM 失效,且在何种约束下?
- RQ4这些失效模式在比线性模型更复杂的神经网络中如何体现?
- RQ5在标准数据集上有哪些实证证据支持提出的失效模式?
主要发现
- 即使不变量特征完全决定标签,ERM 也可能依赖伪特征,在易于学习的任务中尤为明显。
- 识别出两种互补的失效模式:来自数据几何的几何偏斜,使最大间隔范数随数据增多而上升,以及与有限时间梯度下降动力学相关的统计偏斜。
- 随着伪相关加强,几何偏斜推动最大间隔分类器使用伪特征作为捷径,增加对测试时移的脆弱性。
- 有限时间梯度下降显示对伪特征的收敛在更高伪相关性时变慢,揭示训练动力学中的统计偏斜。
- 在基于 MNIST 和 CIFAR10 的任务以及如 FNN、ResNet 等网络上的实证结果支持这些偏斜在不同架构中的存在。
- 论文也讨论了伪相关不适用的情景,并提供对 OoD 失效的更广泛几何解释。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。