[论文解读] An Investigation of Why Overparameterization Exacerbates Spurious Correlations
本文表明,在存在虚假相关性时,将模型规模扩大到超过零训练误差可能会恶化最差组绩效,且对多数群体进行子采样可以缓解这一效应,有时甚至比对少数群体进行加权更有效。
We study why overparameterization -- increasing model size well beyond the point of zero training error -- can hurt test error on minority groups despite improving average test error when there are spurious correlations in the data. Through simulations and experiments on two image datasets, we identify two key properties of the training data that drive this behavior: the proportions of majority versus minority groups, and the signal-to-noise ratio of the spurious correlations. We then analyze a linear setting and theoretically show how the inductive bias of models towards "memorizing" fewer examples can cause overparameterization to hurt. Our analysis leads to a counterintuitive approach of subsampling the majority group, which empirically achieves low minority error in the overparameterized regime, even though the standard approach of upweighting the minority fails. Overall, our results suggest a tension between using overparameterized models versus using all the training data for achieving low worst-group error.
研究动机与目标
- 动机并量化在存在虚假相关性时,过参数化如何影响最差组误差。
- 识别调节这一效应的数据属性,并提出对过参数化模型记忆偏差的理论洞见。
- 比较训练策略(ERM 与重加权)在平均性能与最差组性能方面的差异。
提出的方法
- 在两个图像数据集(CelebA 和 Waterbirds)上对一系列模型大小进行实证评估。
- 使用重新加权经验风险最小化以提高少数群体权重。
- 还实现一个合成数据设置,具备受控的核心特征和虚假特征以及噪声成分。
- 分析一个线性显式记忆设置,以形式化记忆与归纳偏置。
- 使用对随机特征的无正则化逻辑回归进行训练,以研究过参数化效应。
- 通过增大宽度(CelebA)或投影数量(Waterbirds)来改变模型容量。
实验结果
研究问题
- RQ1在存在虚假相关性时,过参数化何时以及为何会降低最差组性能?
- RQ2数据分布属性(多数/少数比例以及虚假信息对核心信息的信息量比)如何影响这一效应?
- RQ3替代训练策略(如子采样或加权)是否能在过参数化情形下减小最差组误差?
- RQ4解释记忆驱动的失败的理论机制是什么,在何种条件下最小化记忆能提高鲁棒性?
主要发现
- 在 CelebA 和 Waterbirds 上,过参数化在重加权下提高了平均测试误差但恶化了最差组误差(在过参数化模型上,最差组误差在零训练误差时甚至可能超过60%)。
- 欠参数化模型在最差组测试误差上可以获得显著更好的结果(例如 CelebA 为 25.6%,Waterbirds 为 26.6%),相比于过参数化模型。
- 在合成数据上,最好的最差组误差由欠参数化模型实现(如 28.5%),而高度过参数化的模型则在约 55% 的最差组误差处达到平台期。
- 移除虚假特征可消除有害的过参数化效应,表明对虚假特征的依赖导致失败。
- 两个数据属性放大此效应:更高的多数群体比例 p_maj 和更高的虚假-核心信息比 r_s:c 会在过参数化情境下增加最差组误差;平衡群体和较低的 r_s:c 可以扭转这一效应。
- 理论线性分析显示,在过参数化模型中,最小范数归纳偏置倾向于通过噪声特征记忆少数样本,导致高最差组误差;欠参数化通过依赖核心特征来避免这一点。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。