Skip to main content
QUICK REVIEW

[論文レビュー] Universality of empirical risk minimization

Andrea Montanari, Basil N. Saeed|arXiv (Cornell University)|Feb 17, 2022
Machine Learning in Materials Science被引用数 23
ひとこと要約

本論文は普遍性を証明する:高次元のERMにおいて射影ベクトルが少数である場合、訓練誤差と検証誤差は特徴分布を平均と共分散を通じてのみ依存し、それがガウス等価物と一致する。ランダム特徴量とニューラルタンジェントモデルへの適用を含む。

ABSTRACT

Consider supervised learning from i.i.d. samples $\{{\boldsymbol x}_i,y_i\}_{i\le n}$ where ${\boldsymbol x}_i \in\mathbb{R}^p$ are feature vectors and ${y} \in \mathbb{R}$ are labels. We study empirical risk minimization over a class of functions that are parameterized by $\mathsf{k} = O(1)$ vectors ${\boldsymbol θ}_1, . . . , {\boldsymbol θ}_{\mathsf k} \in \mathbb{R}^p$ , and prove universality results both for the training and test error. Namely, under the proportional asymptotics $n,p o\infty$, with $n/p = Θ(1)$, we prove that the training error depends on the random features distribution only through its covariance structure. Further, we prove that the minimum test error over near-empirical risk minimizers enjoys similar universality properties. In particular, the asymptotics of these quantities can be computed $-$to leading order$-$ under a simpler model in which the feature vectors ${\boldsymbol x}_i$ are replaced by Gaussian vectors ${\boldsymbol g}_i$ with the same covariance. Earlier universality results were limited to strongly convex learning procedures, or to feature vectors ${\boldsymbol x}_i$ with independent entries. Our results do not make any of these assumptions. Our assumptions are general enough to include feature vectors ${\boldsymbol x}_i$ that are produced by randomized featurization maps. In particular we explicitly check the assumptions for certain random features models (computing the output of a one-layer neural network with random weights) and neural tangent models (first-order Taylor approximation of two-layer networks).

研究の動機と目的

  • 特徴化マップを用いて k が小さい高次元設定における経験的リスク最小化を動機付ける。
  • 訓練の普遍性を確立し、正則性の下で比例漸近法における検証誤差の普遍性を示す。
  • ガウス対応物への還元のための非ガウス特徴解析を開く証明フレームワークを開発する。
  • ランダム特徴量モデルとニューラルタンジェント領域への適用性をデモンストレーションする。

提案手法

  • 特徴行列 X とガウス対応物 G を用いて、n/p=Θ(1) となる比例的極限 n,p→∞ の下でERMを形式化する。
  • ガウス置換下で普遍的な極限を定義する:訓練誤差 minΘ R̂n(Θ;X,y) と検証誤差 Rn(Θ)。
  • 仮定1–5(損失/ラベル、制約集合、分布パラメータ、正則化、点ごとの正規性)を導入する。
  • XとGの間の連続的な sin/cos のブレンドによる補間経路と多項式近似技術を用いて訓練誤差の普遍性を証明する。
  • 近最小化解(ERMt)に対する検証誤差の普遍性を証明し、Rn^x と Rn^g の普遍性条件を定める定理2および定理3を提供する。
  • 結果を2つの特徴化マップクラス、ランダム特徴量とニューラルタンジェントモデルへ適用する。

実験結果

リサーチクエスチョン

  • RQ1高次元で複数の射影特徴を持つERMの訓練誤差は、特徴分布に対して普遍性を示すか?
  • RQ2近似経験リスク最小化解上の検証誤差は、どの条件下で普遍性を示すか?
  • RQ3ガウス特徴を超えて、ランダム特徴量やニューラルタンジェント表現のような非ガウスで依存する特徴マップにも普遍性を拡張できるか?
  • RQ4損失、正則化、データ分布に関する実用的条件は何が普遍性を保証し、一般的なモデルでどのように検証できるか?

主な発見

  • 訓練誤差は普遍である:仮定1–5が成り立つとき、その漸近値はガウス対応モデルと一致する。
  • 追加の正則性の下で近最小化解に対する検証誤差も普遍的であり、ガウスモデル分析を実世界の性能予測に活用できる。
  • 普遍性はランダム特徴マップとニューラルタンジェントモデルの両方に適用され、強い凸性や特徴成分の独立性を必要としない。
  • 連続補間法(補間法)と多項式近似は、非凸ERMと普遍性を導くための必須の技術ツールである。
  • 結果は、強い凸性/非ガウシアン設定を超える従来の普遍性研究を一般化し、独立した特徴成分に依存しない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。