[論文レビュー] Accuracy on the Line: On the Strong Correlation Between Out-of-Distribution and In-Distribution Generalization
この論文は、多数のモデル、データセット、分布シフトにわたるID(訓練データ分布内)とOOD(訓練分布外)精度の間に広範かつ正確な線形相関を示しており、いくつかの例外と、事前学習と理論への洞察を含む。
For machine learning systems to be reliable, we must understand their performance in unseen, out-of-distribution environments. In this paper, we empirically show that out-of-distribution performance is strongly correlated with in-distribution performance for a wide range of models and distribution shifts. Specifically, we demonstrate strong correlations between in-distribution and out-of-distribution performance on variants of CIFAR-10 & ImageNet, a synthetic pose estimation task derived from YCB objects, satellite imagery classification in FMoW-WILDS, and wildlife classification in iWildCam-WILDS. The strong correlations hold across model architectures, hyperparameters, training set size, and training duration, and are more precise than what is expected from existing domain adaptation theory. To complete the picture, we also investigate cases where the correlation is weaker, for instance some synthetic distribution shifts from CIFAR-10-C and the tissue classification dataset Camelyon17-WILDS. Finally, we provide a candidate theory based on a Gaussian data model that shows how changes in the data covariance arising from distribution shift can affect the observed correlations.
研究の動機と目的
- 多様なデータセットとモデルにおいて、OOD性能がID性能と相関するかを調査する。
- 精密な線形ID-OODトレンドが現れる条件を特徴づける。
- モデルタイプ、ハイパーパラメータ、訓練データ、事前学習がID-OOD関係に与える影響を評価する。
- 観察された線形傾向をガウスデータモデルを用いて説明する簡単な理論を提案する。
提案手法
- アーキテクチャ、ハイパーパラメータ、種子、訓練設定を横断する大規模アンサンブルをIDデータセット上で訓練する。
- 各モデルをIDおよびOODのテストセットで評価し、プロビット変換した散布図で結果を可視化する。
- さまざまなID–OODペアについてプロBit領域でのR^2を用いて線形性を定量化する。
- 事前学習とゼロショット予測がID–OOD関係に与える影響を調査する。
- 観察された線形傾向を説明する単純なガウスベースの理論的枠組みを提供する。
実験結果
リサーチクエスチョン
- RQ1複数のデータセットとモデルファミリにおいて、IDとOODの正確さは厳密な線形関係を示すか。
- RQ2モデルアーキテクチャ、ハイパーパラメータ、訓練期間、訓練データ量の変更に対してID–OODの線形傾向はどれくらい頑健か。
- RQ3線形傾向が弱まるまたは崩れる条件は何か、それらの逸脱を説明する要因は何か。
- RQ4事前学習とゼロショット推論はID–OOD関係にどのような影響を及ぼすか。
- RQ5観察された線形傾向とその例外を捉える単純な理論モデルは構築可能か。
主な発見
| ID Dataset | OOD Dataset | R^2 of linear fit (probit domain) | Number of models evaluated |
|---|---|---|---|
| CIFAR-10 | CIFAR-10.1 | 0.995 | 1,060 |
| CIFAR-10 | CIFAR-10.2 | 0.997 | 1,060 |
| CINIC-10 | (CINIC-10 as OOD) | 0.991 | 949 |
| STL-10 | STL-10 as OOD | 0.995 | 456 |
| CIFAR-10-C Fog | CIFAR-10-C Fog as OOD | 0.990 | 790 |
| CIFAR-10-C Brightness | CIFAR-10-C Brightness as OOD | 0.940 | 519 |
| ImageNet | ImageNet-V2 | 0.996 | 219 |
| YCB-Objects | YCB-Objects OOD | 0.975 | 39 |
| iWildCam-WILDS ID | iWildCam-WILDS OOD | 0.881 (0.536) | 66 (63) |
| FMoW-WILDS ID | FMoW-WILDS OOD | 0.984 | 162 |
- IDとOODの精密な線形傾向は、CIFAR-10、ImageNet、FMoW-WILDS、iWildCam-WILDS、YCB-Objectsの分布シフト全体で観察される。
- 傾向はCNN、トランスフォーマー、自己教師付きモデル、従来手法を含む広範なモデルにわたり、ハイパーパラメータ、訓練期間、訓練データ量の変化下でも持続する。
- Probit(またはLogit)スケーリングはより正確な線形関係をもたらし、多くのペア(例:CIFAR-10とCIFAR-10.1/2、CINIC-10、STL-10、CIFAR-10-C Fogなど)でR^2が約0.99に達する。
- いくつかのシフトでは相関が弱い、または例外がある(例:Camelyon17-WILDS組織データ、CIFAR-10-Cガウシアンノイズ、特定のCIFAR-10-C破損、iWildCam-WILDSの事前学習モデルなど)。
- 事前学習はタスクとデータに応じてID–OOD傾向を維持または変化させる可能性がある;ゼロショット予測は一般に主な線形傾向からずれて、x=yラインに近づくが正確にはそこにはない。
- 単純なガウスデータモデルは、共分散がシフト下でどのように変化するかによってほぼ線形のプロビット関係を生み、線形傾向が強まるまたは弱まるときの予測を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。