Skip to main content
QUICK REVIEW

[論文レビュー] Out-of-Distribution Generalization via Risk Extrapolation (REx)

David Krueger, Ethan Caballero|arXiv (Cornell University)|Mar 2, 2020
Domain Adaptation and Few-Shot Learning参考文献 68被引用数 260
ひとこと要約

REx はリスク外挿(MM-REx と V-REx)を導入し、ドメイン間のトレーニングリスクを平準化することでOOD一般化を改善し、 covariate shift の下で複数のタスクにおいて IRM を上回る。

ABSTRACT

Distributional shift is one of the major obstacles when transferring machine learning prediction systems from the lab to the real world. To tackle this problem, we assume that variation across training domains is representative of the variation we might encounter at test time, but also that shifts at test time may be more extreme in magnitude. In particular, we show that reducing differences in risk across training domains can reduce a model's sensitivity to a wide range of extreme distributional shifts, including the challenging setting where the input contains both causal and anti-causal elements. We motivate this approach, Risk Extrapolation (REx), as a form of robust optimization over a perturbation set of extrapolated domains (MM-REx), and propose a penalty on the variance of training risks (V-REx) as a simpler variant. We prove that variants of REx can recover the causal mechanisms of the targets, while also providing some robustness to changes in the input distribution ("covariate shift"). By appropriately trading-off robustness to causally induced distributional shifts and covariate shift, REx is able to outperform alternative methods such as Invariant Risk Minimization in situations where these types of shift co-occur.

研究の動機と目的

  • 多ドメイン学習における分布シフトに対処し、未知のドメインへ頑健な一般化を実現する。
  • トレーニングドメイン間でリスクを等しくすることを通じて不変予測を達成する、原理的な方法としてリスク外挿(REx)を導入する。
  • スケーラブルで実用的な変種としてMM-REx(minimax extrapolation)とV-REx(variance penalty)を提案する。
  • 因果機構との理論的接続を提供し、IRMおよびDROアプローチと比較する。
  • CMNIST変種、ドメイン一般化ベンチマーク、強化学習タスクでのRExの実証的利点を示す。

提案手法

  • OODリスクを、外挿されたドメイン分布に対する最大リスクとして定義する(MM-REx)。
  • 学習リスクのアフィン結合を、チューニング可能な最小ウェイト lambda_min による外挿で許可する。
  • ドメインリスクの分散を用いた、β正則化パラメータを持つ、より単純で安定化したバリアント V-REx を導入する。
  • リスクを平滑化(等化)させると不変予測につながり、定められた仮定の下で因果メカニズムを回復できることを示す。
  • 等化されたリスクと、同分散性 SCM 仮定に基づく Y の因果メカニズムの学習との理論的関連を示し、定理1と定理2を提供する。
  • RExをIRMや他のドメイン一般化手法と比較し、共変量シフトに対する頑健性を主要な利点として強調する。

実験結果

リサーチクエスチョン

  • RQ1介入を伴う多源ドメイン下で、RExはターゲット変数の因果機構を回復できるか?
  • RQ2トレーニングリスクの等化(または低分散)を強制すると、不変予測子とOOD頑健性が向上するか。特に共変量シフトや介入シフト下で?
  • RQ3共変量シフト、介入シフト、混在する因果構造を含むタスクで、RExはIRMや標準ERMとどう比較されるか。
  • RQ4指定された仮定の下で、リスク等化と不変予測および因果発見を結ぶ理論的保証は何か。

主な発見

  • RExはIRMよりも、共変量シフトおよび不変予測要件を含む設定(例:CMNIST変種)で優れている。
  • リスク外挿はトレーニングリスク平面を平坦化し、最悪ケース(OOD)性能を改善する。
  • V-RExとMM-RExは、共変量シフトと介入シフトが同時に起こっても堅牢なOOD一般化を達成できる。
  • RExは不変な関係を見出し、特定の仮定の下で因果機構を同定できる場合がある。ただし、データノイズや異分散性に依存する。
  • ドメイン一般化ベンチマークと強化学習タスクにおいて、RExはIRMおよびERMと比較して頑健性と競争力のある性能を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。