QUICK REVIEW

[論文レビュー] Accuracy on the Line: On the Strong Correlation Between Out-of-Distribution and In-Distribution Generalization

J. J. Miller, Rohan Taori|arXiv (Cornell University)|Jul 9, 2021

Domain Adaptation and Few-Shot Learning被引用数 30

ひとこと要約

この論文は、数多くのモデル、データセット、分布シフトを横断して、in-distributionとout-of-distributionの精度の強い、ほぼ線形の相関を実証的に示し、この現象を説明する単純なガウスベースの理論を提供している。

ABSTRACT

For machine learning systems to be reliable, we must understand their performance in unseen, out-of-distribution environments. In this paper, we empirically show that out-of-distribution performance is strongly correlated with in-distribution performance for a wide range of models and distribution shifts. Specifically, we demonstrate strong correlations between in-distribution and out-of-distribution performance on variants of CIFAR-10 & ImageNet, a synthetic pose estimation task derived from YCB objects, satellite imagery classification in FMoW-WILDS, and wildlife classification in iWildCam-WILDS. The strong correlations hold across model architectures, hyperparameters, training set size, and training duration, and are more precise than what is expected from existing domain adaptation theory. To complete the picture, we also investigate cases where the correlation is weaker, for instance some synthetic distribution shifts from CIFAR-10-C and the tissue classification dataset Camelyon17-WILDS. Finally, we provide a candidate theory based on a Gaussian data model that shows how changes in the data covariance arising from distribution shift can affect the observed correlations.

研究の動機と目的

多様なデータセットとモデルにわたり、in-distributionの性能からout-of-distribution一般化を予測できるかを調査する。
異なる分布シフトの下で、正確な線形のID-OODトレンドが現れるときと、失敗するときを特徴づける。
ハイパーパラメータ、訓練期間、データサイズ、事前学習に対するID-OOD相関の頑健性を評価する。
観察された相関を説明し将来の理論を導くための単純な理論的ガウスモデルを提案する。

提案手法

さまざまなアーキテクチャ、ハイパーパラメータ、シード、訓練設定を変えたin-distributionデータD上で、古典的手法とニューラル手法を含む幅広いモデルを訓練する。
各モデルをID(D)とout-of-distribution(D′)の両方のテストセットで評価し、プロビット変換した散布図で線形トレンドを可視化する。
複数のID/OODペアに対して、プロビット領域でR^2を用いて線形性を定量化する（例：CIFAR-10, CIFAR-10.2, CINIC-10, STL-10, ImageNet, ImageNet-V2, YCB-Objects, FMoW-WILDS, iWildCam-WILDS）。
事前学習とゼロショット推論がID-OODの関係に及ぼす影響を調べる。
観察された相関を説明し将来の理論を導くための単純なガウスデータモデルを開発し、偏差に影響を与える要因を特定する。

実験結果

リサーチクエスチョン

RQ1in-distributionの精度は、多様なデータセットと分布シフトにわたってout-of-distributionの精度を線形に予測するか？
RQ2ID-OODの線形関係は、モデルアーキテクチャ、ハイパーパラメータ、訓練期間、訓練データサイズにどれだけ頑健か？
RQ3事前学習がID-OOD関係に果たす役割は何で、ゼロショット推論はそれにどう影響するか？
RQ4どのような条件下で線形トレンドが失敗または弱まるのか、そしてなぜか？

主な発見

ID データセット	OOD データセット	プロビット領域における線形フィットのR^2	評価したモデル数
CIFAR-10	CIFAR-10.1	0.995	1,060
CIFAR-10	CIFAR-10.2	0.997	1,060
CINIC-10	?	0.991	949
STL-10	?	0.995	456
CIFAR-10-C Fog	?	0.990	790
CIFAR-10-C Brightness	?	0.940	519
ImageNet	ImageNet-V2	0.996	219
YCB-Objects	YCB-Objects OOD	0.975	39
iWildCam-WILDS ID	iWildCam-WILDS OOD	0.881 (0.536)	66 (63)
FMoW-WILDS ID	FMoW-WILDS OOD	0.984	162

多くのデータセット/モデルの組み合わせで、IDとOODの精度の厳密な線形トレンドがあり、いくつかのシフトでプロビット領域のR^2は約0.98–0.997。
線形関係は、古典的なモデルとニューラルモデルを含む複数のモデルファミリ、アーキテクチャ、ハイパーパラメータ、訓練期間、訓練データサイズにわたって成立する。
事前学習は、タスクと設定によってID-OODトレンドを維持したり変えたりする（例：CIFAR-10.2およびFMoW-WILDSはトレンドと一致；iWildCam-WILDSは事前学習モデルで逸脱を示す）。
事前学習モデルを用いたゼロショット予測は、基本的な線形トレンドから逸脱し、x = yに近い直線へ移動する傾向があり、ID訓練だけでなく事前学習によるバイアスを示している。
いくつかの分Shiftは、より弱いまたは正確な線形トレンドを示さない（例：Camelyon17-WILDSの組織分類およびGaussianノイズなどの一部CIFAR-10-Cの破損）、この現象の限界を浮き彫りにする。
単純なガウスデータモデルは、傾きα/γを持つほぼ線形のプロビット関係と、次元が大きくなるにつれて偏差が縮小することを説明し、ID-OOD相関の共分散に基づく直感を裏付ける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。