QUICK REVIEW

[論文レビュー] Spectrum Dependent Learning Curves in Kernel Regression and Wide Neural Networks

Blake Bordelon, Abdülkadir Canatar|arXiv (Cornell University)|Feb 6, 2020

Neural Networks and Applications被引用数 54

ひとこと要約

著者らはカーネル回帰のスペクトル依存的な一般化曲線を解析的に導出し、Neural Tangent Kernelを介して広いニューラルネットワークの訓練と等価であることを示す。より高いスペクトルモードはより多くのデータで学習され、学習段階と周波数バイアスを明らかにする。

ABSTRACT

We derive analytical expressions for the generalization performance of kernel regression as a function of the number of training samples using theoretical methods from Gaussian processes and statistical physics. Our expressions apply to wide neural networks due to an equivalence between training them and kernel regression with the Neural Tangent Kernel (NTK). By computing the decomposition of the total generalization error due to different spectral components of the kernel, we identify a new spectral principle: as the size of the training set grows, kernel machines and neural networks fit successively higher spectral modes of the target function. When data are sampled from a uniform distribution on a high-dimensional hypersphere, dot product kernels, including NTK, exhibit learning stages where different frequency modes of the target function are learned. We verify our theory with simulations on synthetic data and MNIST dataset.

研究の動機と目的

ターゲット関数のスペクトル成分ごとに、カーネル回帰の一般化誤差の解析的表現を開発する。
Neural Tangent Kernel (NTK)の等価性を通じてカーネル回帰の一般化を広いニューラルネットワークへ接続する。
訓練データが増加するにつれて異なるスペクトルモードが異なる速度で学習されることを示す。
ドット積カーネルと高次元データの下での学習段階とスペクトルバイアスを特徴づける。
合成データとMNISTのシミュレーションによる検証を提供する。

提案手法

ガウス過程文献からの学習曲線の連続近似を用いてモードごとの一般化誤差を導出する。
カーネルの Mercer固有基底で関数を表現し、一般化誤差をスペクトルモードごとの E_rho に分解する。
学習ダイナミクスを符号化する平均 G(p,v) 行列の偏微分方程式を導出し、それを解く（鞍点近似を用いたレプリカ法でも解く）。
固有関数が球面調和関数で特異値が lambda_k の単位球面上のドット積カーネルに特化する。
モード誤差 E_rho(p) と全体誤差 E_g(p の暗黙の方程式を得て、学習曲線を計算するアルゴリズムを提供する。

実験結果

リサーチクエスチョン

RQ1カーネルのスペクトル構造は、異なる関数モードがどの速度で学習されるかにどう影響するか。
RQ2一般的なカーネルとデータ分布に対してカーネル回帰の学習曲線を解析的に表現できるか、そしてこれがNTKを介してニューラルネットワークへどのように翻訳されるか。
RQ3データの次元が増えるとどんな学習段階が現れ、RKHSスペクトルによってそれらはどのように支配されるか。
RQ4理論的予測は実データセット（例: MNIST）や勾配降下法で訓練された広いニューラルネットワークで成立するか。

主な発見

異なるスペクトルモードは異なる速度で学習される。より高いカーネル固有値はサンプルあたりの改善をより速くもたらす。
ドット積カーネルを含む超球面上のデータでは、データセットが増えるにつれて低周波モードがより速く学習され、明確な学習段階を生み出す。
高次元極限では、学習段階は周波数 k を訓練サイズ p に対して分離し、k<l は学習され、k=l は学習され、k>l は p ∼ O(d^l のとき学習されない。
モード誤差 E_rho(p) は PDE/レプリカ近似の下で p^{-2} に減衰し、全体の一般化誤差はカーネルとターゲットスペクトルに依存して p に対してべき法則的なスケーリングを示すことがある。
理論は合成データと MNIST のシミュレーションと一致し、多出力やリッジレス/補間的レジーム (λ→0) へ拡張される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。