QUICK REVIEW

[論文レビュー] Model Agnostic Sample Reweighting for Out-of-Distribution Learning

Xiaofang Zhou, Yong Lin|arXiv (Cornell University)|Jan 24, 2023

Domain Adaptation and Few-Shot Learning被引用数 10

ひとこと要約

MAPLE は、訓練データの再重み付けを学習するサンプル重み付けの二階層最適化フレームワークを導入し、重み付きERM が最先端のOOD手法を上回る能力を持ち、モデル非依存で大規模ネットワークで過学習に陥りにくい。

ABSTRACT

Distributionally robust optimization (DRO) and invariant risk minimization (IRM) are two popular methods proposed to improve out-of-distribution (OOD) generalization performance of machine learning models. While effective for small models, it has been observed that these methods can be vulnerable to overfitting with large overparameterized models. This work proposes a principled method, extbf{M}odel extbf{A}gnostic sam extbf{PL}e r extbf{E}weighting ( extbf{MAPLE}), to effectively address OOD problem, especially in overparameterized scenarios. Our key idea is to find an effective reweighting of the training samples so that the standard empirical risk minimization training of a large model on the weighted training data leads to superior OOD generalization performance. The overfitting issue is addressed by considering a bilevel formulation to search for the sample reweighting, in which the generalization complexity depends on the search space of sample weights instead of the model size. We present theoretical analysis in linear case to prove the insensitivity of MAPLE to model size, and empirically verify its superiority in surpassing state-of-the-art methods by a large margin. Code is available at \url{https://github.com/x-zho14/MAPLE}.

研究の動機と目的

正則化ベースの方法による過学習を回避することで、特に過剰パラメータ化モデルに対するOOD一般化を改善する。
最適化をモデルパラメータからサンプル重みに転換し、一般化リスクを低減する。
強い事前情報やグループラベルを用いずに自動的にサンプル重みを学習する。
線形設定での理論的洞察と、データセットやモデルサイズを横断する実証的検証を提供する。

提案手法

MAPLE を、内部ループが訓練データ上の重み付きERM損失を最小化し、外部ループが検証セット上のOOD基準を最小化することでサンプル重みを更新する二階層最適化として定式化する。
重みに関する外部目的関数の勾配を計算するため、切り捨てbackpropagation を用いた射影勾配降下法で二階層問題を解く。
重み空間を小さくモデル非依存な空間として表現し、大規模ニューラルネットワークに伴う過学習を緩和する。
任意で疎性を導入し、内側の最適化に影響する訓練サンプルをサブセットのみとすることで計算量を削減する。
線形の場合に理想的なサンプル重みの同定可能性を示す理論的結果と、モデルサイズではなく重み空間の複雑さに依存する有限サンプル一般化境界を提供する。

実験結果

リサーチクエスチョン

RQ1MAPLE は、不十分特徴への依存を排除しつつ、OOD性能を維持または向上させるサンプル重みを同定できるか？
RQ2学習済みのサンプル重みマッピングは、異なるモデルサイズやアーキテクチャに対して頑健か？
RQ3さまざまなデータ状況や過剰パラメータ化の下で、MAPLE は IRM や GroupDRO とどう比較されるか？
RQ4重み設計に疎性を取り入れると、一般化性能と計算効率は向上するか？
RQ5MAPLE の線形および有限サンプル設定における理論的保証は何か？

主な発見

MAPLE は、複数のタスクとモデルにおいて、最先端手法と比較して優れたOOD性能を達成する。
線形設定には、偏りのない最適予測子を生み出す重み関数が存在し、適切な条件下で MAPLE はそれを同定可能に回復できる。
有限サンプル解析は、一般化境界が重み空間の複雑さと検証データサイズに依存し、モデル容量には依存しないことを示す。
実験結果は、MAPLE が場合によって Oracle（偽特徴を含まないERM）と同等またはそれより良い worst-group 精度を達成できることを示す。
学習されたサンプル重みは、同じタスクで異なるネットワークバックボーン間で転移性を示す（例：ResNet-18 で学習した重みは ResNet-50 に適用できる）。
MAPLE は、全てのモデルパラメータ空間を探索するのではなく、サンプル重み空間を探索することで過学習を回避し、正則化ベースの方法を上回ることができる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。