Skip to main content
QUICK REVIEW

[論文レビュー] Distribution Shift Is Key to Learning Invariant Prediction

Hong Zheng, Fei Teng|arXiv (Cornell University)|Jan 18, 2026
Imbalanced Data Classification Techniques被引用数 0
ひとこと要約

論文は、学習ドメイン間の分布シフトが不変予測の学習を促進し得ると主張し、特定条件下ではERMが不変予測法と同等になり得ると述べる。シフトを有効とする理論的境界を提示し、シフトが不変学習を促進することを示し、合成データとCMNIST実験で検証する。

ABSTRACT

An interesting phenomenon arises: Empirical Risk Minimization (ERM) sometimes outperforms methods specifically designed for out-of-distribution tasks. This motivates an investigation into the reasons behind such behavior beyond algorithmic design. In this study, we find that one such reason lies in the distribution shift across training domains. A large degree of distribution shift can lead to better performance even under ERM. Specifically, we derive several theoretical and empirical findings demonstrating that distribution shift plays a crucial role in model learning and benefits learning invariant prediction. Firstly, the proposed upper bounds indicate that the degree of distribution shift directly affects the prediction ability of the learned models. If it is large, the models' ability can increase, approximating invariant prediction models that make stable predictions under arbitrary known or unseen domains; and vice versa. We also prove that, under certain data conditions, ERM solutions can achieve performance comparable to that of invariant prediction models. Secondly, the empirical validation results demonstrated that the predictions of learned models approximate those of Oracle or Optimal models, provided that the degree of distribution shift in the training data increases.

研究の動機と目的

  • 分布シフトがERMと不変予測設定の下で学習を改善できる理由を動機づける。
  • 分布シフトと不変予測性能との理論的関係を確立する。
  • 因果関係に関連するデータ仮定の下でERMが不変予 Predictorを近似できることを示す。
  • 合成データとCMNISTベンチマークを用いて分布シフトの役割を経験的に検証する。

提案手法

  • マルチ環境データにおける分布シフトと不変予測の定義を形式化する。
  • Assumptions 2–5 の下でERM解と不変予測との関係を示す命題・定理を証明する。
  • KL発散(シフト)が学習性と一般化に及ぼす影響を示す上界を導出する。
  • シフトの大きさと不変予測子への近接とのコロラリを提供する。

実験結果

リサーチクエスチョン

  • RQ1訓練ドメイン間の分布シフトの程度は、不変予測を学習する能力にどのように影響するか。
  • RQ2どのデータ条件下でERMは不変予測モデルと同等の性能を達成できるか。
  • RQ3マルチドメイン設定における学習への分布シフトの影響を定量化する理論的保証は何か。
  • RQ4合成データとCMNISTの経験結果は、より大きなシフトが学習モデルを不変予測子と一致させるという理論を支持しているか。

主な発見

DatasetAlgorithme0.1e0.5e0.9Mean
D1 (CMNIST風回帰)ERM76.3±2.166.3±1.649.5±0.964.0±1.5
D1 (CMNIST風回帰)IRM_Ω58.3±5.655.6±2.750.1±4.954.7±4.4
D1 (CMNIST風回帰)IRM63.8±5.265.0±1.557.4±4.862.1±3.8
D1 (CMNIST風回帰)PIRM_Ω59.6±4.653.3±2.844.9±2.852.6±3.4
D1 (CMNIST風回帰)PIRM65.3±4.366.1±2.558.5±4.263.3±3.6
D1 (CMNIST風回帰)ERM++75.8±1.367.2±1.649.3±1.764.1±1.5
D1 (CMNIST風回帰)FISH74.6±0.565.2±1.847.9±0.462.6±0.9
D1 (CMNIST風回帰)RDM70.6±4.166.5±6.154.6±3.563.9±4.6
D1 (CMNIST風回帰)VREx74.7±1.467.0±1.349.4±2.263.7±1.7
D1 (CMNIST風回帰)EQRM74.3±1.066.6±1.248.3±0.763.1±1.0
D1 (CMNIST風回帰)Oracle64.6±1.666.2±1.464.5±1.365.1±1.4
D1 (CMNIST風回帰)Optimal75.0±0.075.0±0.075.0±0.075.0±0.0
D2 (CMNIST風分類)ERM83.6±0.879.2±1.228.3±1.663.7±1.2
D2 (CMNIST風分類)IRM_Ω58.2±7.057.0±6.642.8±8.552.7±7.4
D2 (CMNIST風分類)IRM85.2±1.182.1±1.215.2±2.660.8±1.6
D2 (CMNIST風分類)PIRM_Ω64.9±3.864.0±3.932.2±5.053.7±4.2
D2 (CMNIST風分類)PIRM83.7±3.379.7±3.618.4±4.960.6±3.9
D2 (CMNIST風分類)ERM++84.9±1.478.6±1.127.3±1.363.6±1.3
D2 (CMNIST風分類)FISH84.6±0.879.9±1.326.3±1.063.6±1.1
D2 (CMNIST風分類)RDM81.5±2.778.2±2.033.1±6.364.2±4.0
D2 (CMNIST風分類)VREx83.1±1.180.8±0.528.0±2.564.0±1.4
D2 (CMNIST風分類)EQRM84.1±1.378.9±2.527.8±2.763.6±2.2
D2 (CMNIST風分類)Oracle64.6±1.666.2±1.464.5±1.365.1±1.4
D2 (CMNIST風分類)Optimal75.0±0.075.0±0.075.0±0.075.0±0.0
  • 大きな分布シフトはERMの性能を向上させ、学習モデルを不変予測子へと近づける。
  • 因果メカニズムがドメイン間で不変であれば、十分なシフトの下でERM解は不変予測子を近似できる。
  • 理論的境界は、ドメイン分布間のKL発散が環境間の学習と一般化を支配することを示す。
  • 訓練ドメインのシフトが大きいほど、予測モデルの出力がOracle/Optimalモデルと一致することを経験的に示す。
  • CMNIST実験は、分布シフトとドメイン間の予測性能の線形相関を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。