QUICK REVIEW

[論文レビュー] Distributionally Robust Neural Networks for Group Shifts: On the Importance of Regularization for Worst-Case Generalization

Shiori Sagawa, Pang Wei Koh|arXiv (Cornell University)|Nov 20, 2019

Domain Adaptation and Few-Shot Learning参考文献 58被引用数 364

ひとこと要約

過parameterized ニューラルネットワークに対して、グループ DRO は、より強い正則化（例：強い L2 あるいは早期停止）と組み合わせた場合に最悪グループの一般化を改善し、グループ DRO モデルの訓練に対する収束保証を持つスケーラブルなオンラインアルゴリズムを導入する。

ABSTRACT

Overparameterized neural networks can be highly accurate on average on an i.i.d. test set yet consistently fail on atypical groups of the data (e.g., by learning spurious correlations that hold on average but not in such groups). Distributionally robust optimization (DRO) allows us to learn models that instead minimize the worst-case training loss over a set of pre-defined groups. However, we find that naively applying group DRO to overparameterized neural networks fails: these models can perfectly fit the training data, and any model with vanishing average training loss also already has vanishing worst-case training loss. Instead, the poor worst-case performance arises from poor generalization on some groups. By coupling group DRO models with increased regularization---a stronger-than-typical L2 penalty or early stopping---we achieve substantially higher worst-group accuracies, with 10-40 percentage point improvements on a natural language inference task and two image tasks, while maintaining high average accuracies. Our results suggest that regularization is important for worst-group generalization in the overparameterized regime, even if it is not needed for average generalization. Finally, we introduce a stochastic optimization algorithm, with convergence guarantees, to efficiently train group DRO models.

研究の動機と目的

i.i.d. 訓練下で癖のある相関が異常なグループのパフォーマンスを低下させる問題を動機づける。
過parameterized なネットワークに対して naively にグループ DRO を適用すると最悪グループの一般化を改善できない理由を調査する。
より強い正則化が、平均精度を維持しつつ最悪グループの精度で実質的な利得を達成するようにグループ DRO を可能にすることを示す。
収束保証を伴うグループ DRO のオンライン最適化アルゴリズムを提案し、その性能を分析する。

提案手法

既知の癖のある相関から定義されたグループでグループ DRO を定式化し、最悪リスクが最大グループリスクに等しいことを導出する。
過parameterized な領域では、ERM およびグループ DRO の両方の訓練損失がゼロになると最悪グループのテスト性能が低いことを示す。
強い L2 適用や早期停止などの正則化戦略を検討し、完全な訓練適合を防ぎ最悪グループの一般化ギャップを縮小する。
訓練中に小さいグループを優先するよう、グループごとの一般化ギャップ項 C/√ng を追加する「グループ調整付き」DRO を導入する。
凸集合設定での収束保証を持つ、θ を SGD で更新し、グループ分布 q を指数勾配上昇で更新するオンライン交互アルゴリズムを開発する。

実験結果

リサーチクエスチョン

RQ1過parameterized ニューラルネットワークに対して、グループ DRO は最悪グループの一般化を改善できるのか、そしてどの正則化条件の下でそうなるのか？
RQ2強い L2、早期停止などの異なる正則化戦略は、グループ DRO における最悪グループと平均の性能にどのような影響を与えるのか？
RQ3グループ固有の一般化ギャップを考慮したグループサイズベースの調整を導入すると、最悪グループの精度はさらに向上するのか？
RQ4提案されたオンライン訓練アルゴリズムは安定かつ収束するのか、そして理論的保証は何か？
RQ5グループ DRO は最悪ケースのロバスト性のベースラインとして重要度重み付けとどう比較されるのか？

主な発見

標準的な正則化を用いた過parameterized モデルは訓練損失がほぼ完璧である一方、最悪グループのテスト性能は低く、Waterbirds、CelebA、MultiNLI での最悪グループ精度はそれぞれ 60.0%、41.1%、65.7% のようである。
強い正則化（大きな L2 ペナルティまたは早期停止）はグループ DRO が最悪グループの精度を実質的に高めつつ平均精度を高く保つことを可能にする（例：強い正則化下で Waterbirds で最大 84.6%、CelebA で 86.7%）。
正則化を伴うグループ DRO はタスク全体で最悪ケースの性能を 10–40 ポイント改善する（自然言語推論と二つの画像タスク）。
グループ固有の一般化ギャップを考慮する項（グループごとに 1/√ng に比例する項）を導入すると、いくつかの設定で最悪グループのテスト精度がさらに改善される（例：Waterbirds で 5.9 ポイント改善）。
θ の SGD とグループ重み分布 q の指数勾配更新を組み合わせたオンライン最適化アルゴリズムは凸設定で収束保証を持ち、大規模モデル/データセットへ拡張可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。