Skip to main content
QUICK REVIEW

[論文レビュー] Neural Tangent Kernel: Convergence and Generalization in Neural Networks

Arthur Paul Jacot, Franck Gabriel|arXiv (Cornell University)|Jun 20, 2018
Neural Networks and Applications参考文献 1被引用数 1,508
ひとこと要約

tldr: 本論文は Neural Tangent Kernel (NTK) を導入し、無限幅ネットにおける決定論的極限挙動を証明し、勾配降下による訓練ダイナミクスが関数空間におけるカーネル勾配降下へと還元されることを示す。

ABSTRACT

At initialization, artificial neural networks (ANNs) are equivalent to Gaussian processes in the infinite-width limit, thus connecting them to kernel methods. We prove that the evolution of an ANN during training can also be described by a kernel: during gradient descent on the parameters of an ANN, the network function $f_θ$ (which maps input vectors to output vectors) follows the kernel gradient of the functional cost (which is convex, in contrast to the parameter cost) w.r.t. a new kernel: the Neural Tangent Kernel (NTK). This kernel is central to describe the generalization features of ANNs. While the NTK is random at initialization and varies during training, in the infinite-width limit it converges to an explicit limiting kernel and it stays constant during training. This makes it possible to study the training of ANNs in function space instead of parameter space. Convergence of the training can then be related to the positive-definiteness of the limiting NTK. We prove the positive-definiteness of the limiting NTK when the data is supported on the sphere and the non-linearity is non-polynomial. We then focus on the setting of least-squares regression and show that in the infinite-width limit, the network function $f_θ$ follows a linear differential equation during training. The convergence is fastest along the largest kernel principal components of the input data with respect to the NTK, hence suggesting a theoretical motivation for early stopping. Finally we study the NTK numerically, observe its behavior for wide networks, and compare it to the infinite-width limit.

研究の動機と目的

  • Fully connected neural networks の訓練ダイナミクスが無限幅極限でどのように振る舞うかを理解する。
  • ネットワーク関数が Limiting NTK に対するカーネル勾配降下に従うことを示す。
  • Limiting NTK が正定値となり収束を保証する条件を確立する。
  • ニューラルネットの訓練をカーネル法と結びつけ、一般化と早期停止への影響を説明する。

提案手法

  • リプシッツ連続性を持つ非線形性とランダムガウス初期化を用いてFully connected networks を定義する。
  • Neural Tangent Kernel (NTK) を導入し、層幅を無限大へ向けると決定論的な極限へ収束することを証明する。
  • 無限幅極限で訓練中にNTK が一定にとどまることを示す。
  • 最小二乗損失の下でネットワーク関数を支配する線形微分方程式を導出する。
  • カーネル勾配降下とデータのカーネル主成分を用いて収束を分析する。
  • 有限幅ネットワークと無限幅理論を比較する数値実験を提供する。

実験結果

リサーチクエスチョン

  • RQ1NTK は無限幅極限で決定論的な極限カーネルへ収束するか。
  • RQ2訓練中にNTK が一定に保たれ、訓練ダイナミクスを関数空間で記述できるか。
  • RQ3Limiting NTK が正定値となり収束を保証する条件は何か。
  • RQ4最小二乗回帰の下での訓練はカーネル主成分と早期停止とどう関連するか。
  • RQ5有限幅ネットワークは実務的に無限幅NTK理論をどの程度近似できるか。

主な発見

  • 初期値におけるネットワーク関数はガウス過程へ収束し、NTK は幅が無限大へと進むと確率収束して決定論的な極限へ到達する。
  • 訓練中、NTK は漸近的に一定を保ち、勾配降下は関数空間におけるカーネル勾配降下として記述できる。
  • 非多項式のリプシッツ連続非線形性と球面上のデータに対して、深さが少なくとも二以上の場合、極限のNTK は正定値であり収束を保証する。
  • 最小二乗回帰の下で訓練ダイナミクスはNTKによって支配される線形微分方程式へ還元され、収束は最も大きなカーネル主成分に沿って最も速く進む。
  • 数値実験は広いネットワークが無限幅極限に近づくことを示し、訓練中もNTK がその極限に近い状態を維持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。