[論文レビュー] Learning in High Dimension Always Amounts to Extrapolation
本論文は、高次元空間(d > 100)では新しいサンプルが訓練データの凸包の外にほぼ確実に位置することを示しており、補間はほとんど起こらず外挿が優勢となるため、補間と汎化の伝統的な結びつきに挑戦する。
The notion of interpolation and extrapolation is fundamental in various fields from deep learning to function approximation. Interpolation occurs for a sample $x$ whenever this sample falls inside or on the boundary of the given dataset's convex hull. Extrapolation occurs when $x$ falls outside of that convex hull. One fundamental (mis)conception is that state-of-the-art algorithms work so well because of their ability to correctly interpolate training data. A second (mis)conception is that interpolation happens throughout tasks and datasets, in fact, many intuitions and theories rely on that assumption. We empirically and theoretically argue against those two points and demonstrate that on any high-dimensional ($>$100) dataset, interpolation almost surely never happens. Those results challenge the validity of our current interpolation/extrapolation definition as an indicator of generalization performances.
研究の動機と目的
- 高次元空間(>100)において、補間がほぼ確実に起こらないことを理論と実証で示す。
- データの多様体の固有次元にかかわらず、現在のモデルが外挿レジームで動作していることを示す。
- データセットサイズ、周囲空間の次元と凸包の次元、埋め込みが補間確率にどう影響するかを調査する。
- 現代の機械学習における補間/外挿が汎化とどのように関連するかの影響を検討する。
- 高次元データへ適合する補間の幾何学的定義について指針を提供する。
提案手法
- 理論的結果(定理1)は、d次元のボールから iid に一様サンプルを取る場合、新規サンプルが凸包に入る確率はNが d に対して指数的に増加しない限り0に近づくことを示す。
- 人工データを用いた周囲次元と凸包次元を変化させた補間確率の実証実験、および異なる次元削減・埋め込み下での実データセット(MNIST、CIFAR、ImageNet)での評価。
- 内在的な多様体次元、凸包次元 d*、観測次元を変化させ、次元数(およびサンプルサイズ)とともに補間確率がどう減衰するかを研究する。
- 埋め込み空間と次元削減の観点を含む分析で、潜在表現内で補間が持続するか、一般的な削減後に補間が残るかを検証する。
- 既存の結果(Valtr の公式、Buchta の極限定界、Kabluchko & Zaporozhets の非漸近性など)と理論的総合を行い、高次元における補間/外挿確率を特徴づける。
実験結果
リサーチクエスチョン
- RQ1現実的なデータセットサイズで、新規サンプルの補間確率は高次元で消失するか。
- RQ2内在次元、周囲次元、およびデータを含む最小のアファイン部分空間である凸包の次元が、補間の確率にどのように影響するか。
- RQ3一般的な埋め込みや次元削減技法は、補間/外挿の情報を保持するか。
- RQ4高次元の補間/外挿の性質がモデルの汎化に与える影響は何か。
- RQ5既知の理論結果を現実のデータ分布や埋め込みに適用できるか。
主な発見
- 補間確率は次元数とともに指数関数的に減衰し、一定の補間確率を維持するには指数関数的に多いサンプルが必要である。
- データを含む最小のアファイン部分空間(凸包次元 d*)が補間確率を内在的多様体次元よりも支配する。固定された d* で周囲次元を増やしても補間を維持する助けにはならない。
- 実データセット(MNIST、CIFAR、ImageNet)およびさまざまな埋め込みで、次元が増えるにつれテストサンプルは訓練データに対して外挿領域に入り、実践的には外挿が優勢になることを示している。
- 次元削減法や多くの埋め込みは、補間/外挿の区別を消去しがちで、データ幾何の解釈を誤解させる可能性がある。
- Johnson–Lindenstrauss 型の削減は、N が d に対して線形にしか成長しない場合、補間確率を保持できない。実用的なデータ規模では高次元での補間は起こりにくいことを補強する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。