Skip to main content
QUICK REVIEW

[論文レビュー] Generalization error of random features and kernel methods: hypercontractivity and kernel matrix concentration

Mei Song, Theodor Misiakiewicz|arXiv (Cornell University)|Jan 26, 2021
Stochastic Gradient Optimization Techniques参考文献 39被引用数 18
ひとこと要約

本稿は、核のスペクトル的およびハイパーコントラクト性条件の下で、ランダム特徴とカーネルリッジ回帰における一般化誤差の鋭い特徴付けを提供する。ランダム特徴のリッジ回帰がカーネルリッジ回帰を近似するのは、特徴次元 $N$ が $n^{1+\theta}$ を超えるときのみであり、$N \leq n^{1-\delta}$ のときにはテスト誤差が近似誤差に支配され、両手法間の明確な誤差ギャップが定量的に特定されている。

ABSTRACT

Consider the classical supervised learning problem: we are given data $(y_i,{\boldsymbol x}_i)$, $i\le n$, with $y_i$ a response and ${\boldsymbol x}_i\in {\mathcal X}$ a covariates vector, and try to learn a model $f:{\mathcal X} o{\mathbb R}$ to predict future responses. Random features methods map the covariates vector ${\boldsymbol x}_i$ to a point ${\boldsymbol ϕ}({\boldsymbol x}_i)$ in a higher dimensional space ${\mathbb R}^N$, via a random featurization map ${\boldsymbol ϕ}$. We study the use of random features methods in conjunction with ridge regression in the feature space ${\mathbb R}^N$. This can be viewed as a finite-dimensional approximation of kernel ridge regression (KRR), or as a stylized model for neural networks in the so called lazy training regime. We define a class of problems satisfying certain spectral conditions on the underlying kernels, and a hypercontractivity assumption on the associated eigenfunctions. These conditions are verified by classical high-dimensional examples. Under these conditions, we prove a sharp characterization of the error of random features ridge regression. In particular, we address two fundamental questions: $(1)$~What is the generalization error of KRR? $(2)$~How big $N$ should be for the random features approximation to achieve the same error as KRR? In this setting, we prove that KRR is well approximated by a projection onto the top $\ell$ eigenfunctions of the kernel, where $\ell$ depends on the sample size $n$. We show that the test error of random features ridge regression is dominated by its approximation error and is larger than the error of KRR as long as $N\le n^{1-δ}$ for some $δ>0$. We characterize this gap. For $N\ge n^{1+δ}$, random features achieve the same error as the corresponding KRR, and further increasing $N$ does not lead to a significant change in test error.

研究の動機と目的

  • 高次元設定におけるランダム特徴のリッジ回帰(RFRR)の一般化誤差を理解すること。
  • RFRRがカーネルリッジ回帰(KRR)の性能を再現するために必要な最小の特徴次元 $N$ を特定すること。
  • RFRRが制御された誤差でKRRを近似できる条件を確立すること。
  • RFRRにおける近似誤差と推定誤差のトレードオフを特徴付けること。

提案手法

  • 著者らは、固有関数におけるスペクトル的条件とハイパーコントラクト性を満たす核のクラスを定義し、古典的な高次元モデルで検証可能であることを示している。
  • 彼らはKRRの有限次元近似としてRFRRを分析し、核作用素の上位 $\ell$ 個の固有関数の役割に注目している。
  • 解析は、ランダム特徴行列の測度集中と、スペクトル分解を用いた経験的核行列のバウンドに依存している。
  • 主な技術的道具は、球面および超立方体におけるハイパーコントラクト性不等式であり、多項式固有関数の高次モーメントを制御する。
  • この手法では、一般化誤差を近似誤差と推定誤差の成分に分解し、行列集中と固有値解析を用いて鋭いバウンドを導出している。
  • 理論的結果は、ハイパーコントラクト性が成り立つ2つの代表的例(二値超立方体と単位球面)で検証されている。

実験結果

リサーチクエスチョン

  • RQ1核にスペクトル的およびハイパーコントラクト性仮定を課した場合、カーネルリッジ回帰の一般化誤差はどの程度か?
  • RQ2ランダム特徴のリッジ回帰がカーネルリッジ回帰と同等の一般化誤差を達成するには、特徴次元 $N$ がどの程度大きくなければならないか?
  • RQ3ランダム特徴のリッジ回帰における主な誤差源は何か—近似誤差か推定誤差か?
  • RQ4ランダム特徴の近似誤差は、標本サイズ $n$ と特徴次元 $N$ にどのように依存するか?
  • RQ5核行列の集中とハイパーコントラクト性を用いて、RFRRの一般化誤差をタイトにバウンドできるか?

主な発見

  • 任意の $\delta > 0$ に対して、$N \leq n^{1-\delta}$ のとき、ランダム特徴のリッジ回帰の一般化誤差は近似誤差に支配され、KRRのそれより厳密に大きい。
  • $N \geq n^{1+\delta}$ のとき、RFRRのテスト誤差は定数倍の差異を除きKRRと一致し、さらに $N$ を増大させても誤差は顕著に減少しない。
  • KRRは、核の上位 $\ell$ 個の固有関数への射影によって良く近似可能であり、$\ell \asymp n$ である。
  • $N \leq n^{1-\delta}$ のとき、RFRRとKRRの一般化誤差のギャップは定量的に特定され、$\delta > 0$ に対して $O(n^{-\delta})$ のスケールで増大する。
  • ガウス分布、球面上の一様分布、または超立方体上での測度のハイパーコントラクト性により、次数 $\ell$ の固有関数が $\|f\|_{L^q}^2 \leq (q-1)^\ell \|f\|_{L^2}^2$ を満たすことが保証され、モーメントの制御が可能になる。
  • 経験的核行列は期待値の周囲に集中し、その上位固有ベクトルは高確率で真の核固有ベクトルと一致するため、安定な近似が可能になる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。