[論文レビュー] In Defense of Uniform Convergence: Generalization via derandomization with an application to interpolating predictors
この論文は、過パラメータ化された学習における一般化を説明するための均一収束の有効性を主張する。具体的には、補間モデルから得られる代替予測子を構築するデランダマイゼーション枠組みを導入し、元の予測子がタイトな均一バインドを持たない場合でも、その条件付き期待値(デランダマイズド版)が構造的グリベノ=カンテリクラスに属することを示している。これにより、均一一般化バインドが可能となり、最小ノルム線形解のような補間推定子における低リスクを説明できる。
We propose to study the generalization error of a learned predictor $\\hat h$ in terms of that of a surrogate (potentially randomized) predictor that is coupled to $\\hat h$ and designed to trade empirical risk for control of generalization error. In the case where $\\hat h$ interpolates the data, it is interesting to consider theoretical surrogate classifiers that are partially derandomized or rerandomized, e.g., fit to the training data but with modified label noise. We also show that replacing $\\hat h$ by its conditional distribution with respect to an arbitrary $\\sigma$-field is a convenient way to derandomize. We study two examples, inspired by the work of Nagarajan and Kolter (2019) and Bartlett et al. (2019), where the learned classifier $\\hat h$ interpolates the training data with high probability, has small risk, and, yet, does not belong to a nonrandom class with a tight uniform bound on two-sided generalization error. At the same time, we bound the risk of $\\hat h$ in terms of surrogates constructed by conditioning and denoising, respectively, and shown to belong to nonrandom classes with uniformly small generalization error.
研究の動機と目的
- 過パラメータ化されたモデルが訓練データを補間し、標準的な均一収束バインドに失敗しても低リスクを達成するという一般化の課題を解明すること。
- 元の予測子を条件付き期待値やノイズ除去によって変換した代替予測子が、タイトな均一一般化誤差を持つクラスに属することを示し、均一収束が依然として有効であることを実証すること。
- 複雑度が増加する学習問題の系列に対して、構造的グリベノ=カンテリクラスの概念を形式化し、古典的な均一収束を過パラメータ化設定に拡張すること。
- Bartlettら(2019)と同一の有益な条件下で構造的グリベノ=カンテリ性を証明することで、先行研究における技術的ギャップを解消し、彼らのリスクバインドの有効性を回復すること。
- 補間予測子が均一バインドを持たない場合でも、そのデランダマイズド代替予測子を介してリスクが有界である理論的枠組みを提供すること。
提案手法
- 学習済みの補間予測子を、任意のσ-代数に関して条件付き期待値に置き換えることで、非確率的代替予測子を生成するデランダマイゼーション戦略を提案する。
- 複雑度が増加する学習問題の系列に対して、構造的グリベノ=カンテリ(GC)クラスの概念を導入し、古典的均一収束を過パラメータ化設定に一般化する。
- 最小ノルム補間解を用いた過パラメータ化線形回帰に、代替アプローチを適用し、元の予測子が均一バインドを満たさない一方で、ラベルノイズを除去したデノイズド代替予測子(ラベルノイズ除去済み)が構造的GC性を満たすことを示す。
- 標本共分散行列の集中不等式(Koltchinskii & Lounici, 2017)を用いて、代替予測子の一般化誤差が一様に有界であることを確立する。
- 一般化誤差を3つの成分に分解する:(1) クリーンデータ上の代替予測子のリスク、(2) クリーンデータ上での代替予測子と元の予測子の差、(3) ノイズありデータ上での元の予測子と代替予測子の差。
- 各成分を個別に高確率の集中結果と共分散行列のトレースノルムを用いてバインドし、最終的に期待リスクバインドがσ²√(r₀(Σₙ)/n)のオーダーで得られることを導出する。
実験結果
リサーチクエスチョン
- RQ1古典的な均一バインドに反する補間モデルにおいて、均一収束が依然として一般化を説明できるか?
- RQ2補間モデルのデランダマイズド代替予測子が、均一に小さい一般化誤差を持つクラスに属する条件は何か?
- RQ3有益な共分散条件の下で、最小ノルム補間解から導かれる代替予測子に対して、構造的グリベノ=カンテリ性を確立できるか?
- RQ4補間予測子のリスクとそのデランダマイズド代替予測子のリスクの関係は何か?この関係はタイトな期待リスクバインドを導くことができるか?
- RQ5ラベルノイズ除去と条件付き期待値は、均一収束を満たさない予測子に対し、どのようにして均一収束を可能にするか?
主な発見
- Bartlettら(2019)の有益な条件下で、最小ノルム補間解からラベルノイズを除去した代替予測子は、構造的グリベノ=カンテリクラスに属する。これにより、彼らの均一収束議論の有効性が回復される。
- 元の補間予測子の期待一般化誤差は、O(σ²√(r₀(Σₙ)/n))で有界である。ここでr₀(Σₙ)は特徴共分散行列の有効ランクである。
- 元の予測子ˆβのリスクは、期待値において3つの成分の和で有界である:E[LS(ˆβ₀) − LS(ˆβ)] = σ²、E[LD(ˆβ) − LD(ˆβ₀)] = O(σ² log(1/δ)(k*/n + n/Rk*(Σₙ)))、E[LD(ˆβ₀) − LS(ˆβ₀)] = O(σ²√(r₀(Σₙ)/n))。
- 条件付き期待値(データに関して)として定義されるデランダマイズド代替予測子は、一様に小さい一般化誤差を持ち、均一収束を介してタイトなリスクバインドを可能にする。
- 先行研究における技術的誤りを是正し、Bartlettら(2019)と同一の有益な条件下で構造的GC性を証明することで、リスクバインドの有効性を保証した。
- この枠組みは、元のモデルが均一バインドを持たないものの、そのデランダマイズド版が持つことから、ダブルデセントの領域における一般化をうまく説明できる。理論的理解への道筋を提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。