QUICK REVIEW

[论文解读] Distributionally Robust Neural Networks for Group Shifts: On the Importance of Regularization for Worst-Case Generalization

Shiori Sagawa, Pang Wei Koh|arXiv (Cornell University)|Nov 20, 2019

Domain Adaptation and Few-Shot Learning参考文献 58被引用 364

一句话总结

本文表明，对于过参数化的神经网络，在结合更强正则化（例如强的 L2 或早停）时，组别分布鲁棒优化（group DRO）可以改善最坏组的泛化，并引入一个可扩展的在线算法，具有对训练组DRO模型的收敛保证。

ABSTRACT

Overparameterized neural networks can be highly accurate on average on an i.i.d. test set yet consistently fail on atypical groups of the data (e.g., by learning spurious correlations that hold on average but not in such groups). Distributionally robust optimization (DRO) allows us to learn models that instead minimize the worst-case training loss over a set of pre-defined groups. However, we find that naively applying group DRO to overparameterized neural networks fails: these models can perfectly fit the training data, and any model with vanishing average training loss also already has vanishing worst-case training loss. Instead, the poor worst-case performance arises from poor generalization on some groups. By coupling group DRO models with increased regularization---a stronger-than-typical L2 penalty or early stopping---we achieve substantially higher worst-group accuracies, with 10-40 percentage point improvements on a natural language inference task and two image tasks, while maintaining high average accuracies. Our results suggest that regularization is important for worst-group generalization in the overparameterized regime, even if it is not needed for average generalization. Finally, we introduce a stochastic optimization algorithm, with convergence guarantees, to efficiently train group DRO models.

研究动机与目标

动机：在同分布独立同分布(i.i.d.)训练下，虚假相关性导致对非典型组的性能较差的问题。
研究为何对过参数化网络原样应用组DRO可能无法改善最坏组的泛化。
证明更强的正则化使组DRO在保持平均准确率的同时，显著提高最坏组准确率。
提出一个带收敛保证的组DRO在线优化算法，并分析其性能。

提出的方法

将组DRO量化为从已知虚假相关性定义的组，并推导出最坏情况风险等于最大组风险。
在过参数化情形下，ERM和组DRO的零训练损失也会导致较差的最坏组测试性能。
研究正则化策略（强L2、早停）以防止拟合过拟合并缩小最坏组泛化差距。
引入带组调整的DRO，它添加一个组内泛化差距项 C/√ng，以在训练中优先考虑较小的组。
开发一个在线交替梯度算法，通过 SGD 更新 θ，通过指数梯度上升更新组分布 q，在凸设定下具有收敛保证。

实验结果

研究问题

RQ1在过参数化的神经网络中，组DRO是否能改善最坏组的泛化，以及在何种正则化条件下？
RQ2不同正则化策略（强L2、早停）如何影响组DRO中的最坏组与平均性能？
RQ3是否将基于组大小的调整纳入以补偿组特定的泛化差距，从而进一步提高最坏组准确率？
RQ4所提出的组DRO在线训练算法是否稳定且收敛，其理论保证是什么？
RQ5在组偏移下，组DRO与作为基线的加权重要性采样在最坏-case鲁棒性方面有何比较？

主要发现

具有标准正则化的过参数化模型在训练损失几乎为零但最坏组的测试性能很差，Waterbirds、CelebA、MultiNLI 的最坏组准确率分别为 60.0%、41.1%、65.7%。
强正则化（较大的 L2 惩罚或早停）使组DRO在保持高平均准确率的同时实现更高的最坏组准确率（在强正则化下Waterbirds 可达84.6%、CelebA 可达86.7%）。
结合正则化的组DRO在自然语言推理和两个图像任务上将最坏情况性能提升了10到40个百分点。
引入考虑组特定泛化差距的组调整项（与 1/√ng 成比例）在某些设置下进一步提升最坏组测试准确率（如 Waterbirds 提升了 5.9 个百分点）。
一种将对 θ 的 SGD 与对组权重分布 q 的指数梯度更新交替的在线优化算法，在凸设定下具有收敛保证，并可扩展到大模型/大数据集。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。