QUICK REVIEW

[論文レビュー] Towards a Theoretical Framework of Out-of-Distribution Generalization

Haotian Ye, Chuanlong Xie|arXiv (Cornell University)|Jun 8, 2021

Domain Adaptation and Few-Shot Learning参考文献 60被引用数 41

ひとこと要約

本論文は、変動性、情報量、拡張関数を用いたOOD一般化の定量的枠組みを提案し、OOD一般化境界を導出し、実験でOOD精度を向上させるモデル選択基準を提案する。

ABSTRACT

Generalization to out-of-distribution (OOD) data is one of the central problems in modern machine learning. Recently, there is a surge of attempts to propose algorithms that mainly build upon the idea of extracting invariant features. Although intuitively reasonable, theoretical understanding of what kind of invariance can guarantee OOD generalization is still limited, and generalization to arbitrary out-of-distribution is clearly impossible. In this work, we take the first step towards rigorous and quantitative definitions of 1) what is OOD; and 2) what does it mean by saying an OOD problem is learnable. We also introduce a new concept of expansion function, which characterizes to what extent the variance is amplified in the test domains over the training domains, and therefore give a quantitative meaning of invariant features. Based on these, we prove OOD generalization error bounds. It turns out that OOD generalization largely depends on the expansion function. As recently pointed out by Gulrajani and Lopez-Paz (2020), any OOD learning algorithm without a model selection module is incomplete. Our theory naturally induces a model selection criterion. Extensive experiments on benchmark OOD datasets demonstrate that our model selection criterion has a significant advantage over baselines.

研究の動機と目的

特徴分布を用いて、利用可能なドメインと未知のドメインの関係としてOOD一般化を形式化する。
不変性と学習可能性を定量化するために、変動性、情報量、および拡張関数を導入する。
拡張と特徴変動に基づくOOD一般化誤差の上界と下界を導出する。
検証精度と特徴変動をバランスさせるモデル選択基準を提案し、OOD性能の改善を図る。
標準のOODデータセットでの実験によりアプローチを示し、実世界のOOD問題の学習可能性を分析する。

提案手法

分布距離 ρ を用いて、ドメイン間の一次元特徴について変動性と情報量を定義する。
利用可能なドメインと未知のドメイン間の変動を関連付ける拡張関数 s(·) を導入する。
情報量閾値を与えられたとき、(s(·), δ) – 学習可能性の存在としてOODの学習可能性を定式化する。
一般化境界を提供する：err(f) ≤ O(s(Vsup(h, Eavail))^(α^2/(α+d)^2))、列挙された正則条件の下で。
線形トップモデルに対して境界を特化し、線形収束の可能性を示す：err(f) ≤ O(s(Vsup(h, Eavail))).
検証精度と特徴変動を組み合わせた Acc - r0 · V を最適化するモデル選択アルゴリズムを提案する。

実験結果

リサーチクエスチョン

RQ1トレーニングとテストのドメインが異なる場合、OOD一般化をどのように厳密に特徴付けられるか。
RQ2未知のドメインにおける不変性を保つ際、特徴変動と情報量はどのような役割を果たすか。
RQ3拡張関数と特徴変動に依存するOOD一般化誤差の定量的境界を導出できるか。
RQ4検証パフォーマンスと特徴変動の両方を考慮して、OOD性能を予測するモデル選択を改善できるか。

主な発見

Env	A	C	P	S	avg	acc inc
PACS	88.72%	81.74%	96.83%	79.00%	86.57%	1.66% ↑
OfficeHome	65.76%	55.07%	75.20%	76.31%	68.09%	1.00% ↑
VLCS	97.81%	66.98%	69.50%	70.97%	76.32%	0.63% ↑

拡張関数 s(·) は、利用可能なドメインからすべてのドメインへと特徴変動がどのように拡大するかを定量化し、OODの難易度を決定する。
OOD一般化誤差は、特徴変動と情報量に結びつく量によって上界および下界が定まっており、変動が小さくなると境界は厳しくなる。
情報量が高く、利用可能なドメインで変動が小さい特徴については、OOD一般化が改善され、特定の条件下で誤差が0に収束し得る。
検証精度と変動ペナルティを組み合わせたモデル選択基準は、いくつかのOODベンチマークで accuracy のみの選択よりも性能を上回る。
Office-Home での実証分析により、識別可能な拡張関数が現れ、δ（情報量閾値）を大きくすると拡張関数が小さくなり、学習がより実現可能になる。
PACS と OfficeHome の実験は、提案された選択法が検証精度ベースの選択より高いOOD精度をもたらすことを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。