QUICK REVIEW

[論文レビュー] On the Multiple Descent of Minimum-Norm Interpolants and Restricted Lower Isometry of Kernels

Tengyuan Liang, Alexander Rakhlin|arXiv (Cornell University)|Aug 27, 2019

Stochastic Gradient Optimization Techniques被引用数 59

ひとこと要約

この論文は、さまざまな高次元スケーリング regime の下で RKHS における最小ノルム補間子のリスクを分析し、高次元カーネル行列に対する restricted lower isometry property を証明して、d が n とともにスケールする場合に非単調で多段階的なリスク挙動を明らかにする。

ABSTRACT

We study the risk of minimum-norm interpolants of data in Reproducing Kernel Hilbert Spaces. Our upper bounds on the risk are of a multiple-descent shape for the various scalings of $d = n^{\\alpha}$, $\\alpha\\in(0,1)$, for the input dimension $d$ and sample size $n$. Empirical evidence supports our finding that minimum-norm interpolants in RKHS can exhibit this unusual non-monotonicity in sample size; furthermore, locations of the peaks in our experiments match our theoretical predictions. Since gradient flow on appropriately initialized wide neural networks converges to a minimum-norm interpolant with respect to a certain kernel, our analysis also yields novel estimation and generalization guarantees for these over-parametrized models. At the heart of our analysis is a study of spectral properties of the random kernel matrix restricted to a filtration of eigen-spaces of the population covariance operator, and may be of independent interest.

研究の動機と目的

RKHS におけるカーネルRIDGEなし回帰の最小ノルム補間子の一般化と一貫性の理解を動機づける。
次元スケーリング d ~ n^α, α ∈ (0,1) の下でのリスク挙動を特徴づける。
母集団共分散作用素の固有空間の層別に対する経験カーネル行列のスペクトル特性を restricted lower isometry 分析を通じて明らかにする。
結果を、勾配流で訓練される過剰パラメトリックモデルおよび NTK 型カーネルに結びつける。

提案手法

核 k(x,z)=h(x^Tz/d) によって定義され、h はスムーズかつ非負のテイラー係数を持つカーネル k のRKHS における最小ノルム補間子 f̂ を研究する。
閉形式の f̂(x)=k(x,X)^T K^{-1} Y および X に条件付けられたバイアス-分散分解を用いて、補間子の分散とバイアスの寄与を分析する。
母集団の固有スペースの層別に対して経験カーネル行列に対する restricted lower isometry property を確立する。
多項式特徴に対する Gram–Schmidt 正交化を用いてモノミアルの共分散構造を制御し、スペクトル下界を導出する。
高次元での標本共分散の最小固有値を小球確率技法を用いて上界する。
ニューラルネットワーク動機付けカーネル（Neural-Tangent-Type カーネルを含む）へ結果を拡張し、一般化境界を導出する。

実験結果

リサーチクエスチョン

RQ1次元が d ~ n^α で α ∈ (0,1) とスケールする regime の下で、最小ノルムカーネル補間子のリスクはどのように振る舞うか？
RQ2高次元カーネル行列に対して Restricted Lower Isometry Property (RLIP) を確立できるか、またそれが分散・バイアスの界にどう影響するか？
RQ3NTK 型カーネルを介して neural-network 訓練 regime にこの RKHS の結果は拡張され、過剰パラメトリゼーションモデルに保証を与えるか？
RQ4ピークリスクの regime（多 descent）はどこに位置し、母集団共分散のスペクトル特性とどう関連するか？
RQ5ノイズなしとノイズありの設定で、補間子の一般化性能はどう変化するか？

主な発見

RKHS における最小ノルム補間子のリスク上界は、d が n^α にスケールする regime において複数の descent の形状を示す、α ∈ (0,1)。
各整数 ι≥1 および α ∈ [1/(ι+1), 1/ι) に対して、リスク曲線は d ≈ n^{1/(ι+1/2)} の周辺で急速な減衰を伴う谷をもち、これらの予測スケールでピークを示す。
母集団固有空間の層別に制限された下界アイソメトリティ性を満たす経験カーネル行列は、分散とバイアスの鋭い制御を可能にする。
分散の界は d^ι/n の項と n/d^{ι+1} の項を含み、結果は h のテイラー係数に依存して多項式・非多項式のカーネルケースをカバーする。
バイアスは分散項で支配される界の下で制御可能であり、ターゲット関数のカーネル表現とカーネル値の有界性という仮定のもとに成り立つ。
コーネルに対する Neural-Tangent-Type カーネルへの主結果の系は拡張され、広いニューラルネットワークが最小ノルム補間子へ収束する場合の推定と一般化の保証を示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。