Skip to main content
QUICK REVIEW

[論文レビュー] A Fine-Grained Spectral Perspective on Neural Networks

Greg Yang, Hadi Salman|arXiv (Cornell University)|Jul 24, 2019
Gaussian Processes and Bayesian Inference参考文献 59被引用数 42
ひとこと要約

本論文は Conjugate Kernel (CK) および Neural Tangent Kernel (NTK) のスペクトルを研究し、初期化・訓練ダイナミクス・ハイパーパラメータの影響を理解する。非普遍的な単純さバイアス、深さのトレードオフ、および学習率予測を明らかにする。

ABSTRACT

Are neural networks biased toward simple functions? Does depth always help learn more complex features? Is training the last layer of a network as good as training all layers? How to set the range for learning rate tuning? These questions seem unrelated at face value, but in this work we give all of them a common treatment from the spectral perspective. We will study the spectra of the *Conjugate Kernel, CK,* (also called the *Neural Network-Gaussian Process Kernel*), and the *Neural Tangent Kernel, NTK*. Roughly, the CK and the NTK tell us respectively "what a network looks like at initialization" and "what a network looks like during and after training." Their spectra then encode valuable information about the initial distribution and the training and generalization properties of neural networks. By analyzing the eigenvalues, we lend novel insights into the questions put forth at the beginning, and we verify these insights by extensive experiments of neural networks. We derive fast algorithms for computing the spectra of CK and NTK when the data is uniformly distributed over the boolean cube, and show this spectra is the same in high dimensions when data is drawn from isotropic Gaussian or uniformly over the sphere. Code replicating our results is available at github.com/thegregyang/NNspectra.

研究の動機と目的

  • 神経ネットワークが CK and NTK のスペクトル特性を介して単純な関数を好むかを調査する。
  • ハイパーパラメータ (深さ、分散、活性化関数) がスペクトルをどのように形作り、学習と汎化に及ぶ影響を分析する。
  • 最後の層のみ訓練する場合と全層を訓練する場合の、特徴の複雑さの観点からのトレードオフを検討する。
  • スペクトル理論を用いて最大の発散しない学習率を予測し、分布と実データに渡って検証する。

提案手法

  • 無限に広い MLP に対する CK と NTK を定義し、それらの帰納カーネルの再帰を示す。
  • CK/NTK がガウス過程のカーネルおよび線形化された訓練ダイナミクスとして作用することを示し、スペクトル解析を可能にする。
  • 真理変数のブールキューブ上で Fourier 基底を用いて CK/NTK を対角化し、次数ごとの固有値を得る。
  • スペクトル内容と関数の学習可能性を結びつける指向として有理分散を導入する。
  • ブールキューブ、球面、ガウス分布、および実データセット(MNIST, CIFAR10) に対するスペクトル予測を経験的に検証する。
  • ブールキューブと高次元設定の CK/NTK スペクトルの高速計算を開発・利用する。

実験結果

リサーチクエスチョン

  • RQ1CK および NTK のスペクトルは、アーキテクチャや深さを超えて普遍的な単純さバイアスを明らかにするか?
  • RQ2深さ、活性化、重み・バイアスの分散が上位固有値と次数別分散にどのような影響を与えるか?
  • RQ3特徴の複雑さが異なる学習の際に、最後の層のみ訓練する方が全層を訓練する場合より望ましいのはいつか?
  • RQ4スペクトル特性は、データ分布やデータセットにわたる SGD の実用的な学習率の限界(最大学習率)を予測できるか?

主な発見

  • 単純さバイアスは普遍的ではない。シグモイド型ネットワークでは、深さとウェイト分散によってバイアスが弱まるか、あるいはなくなることもあるが、固有値を偶数/奇数次数で並べるという弱い形は残る。
  • より深いネットワークはより複雑な特徴を学習できるが、高次成分に対しては、性能が低下する最適な深さを超えると劣化する。
  • NTK は一般に CK より高次成分に多くの分散を割り当て、全層を訓練する場合により複雑な特徴の学習を促進する。
  • 指定された次数に対して、分数分散を最大化する最適深さは次数とともに増加し、高度な複雑さの特徴には深さがより有効だが、限界があることを示す。
  • この枠組みは、分布間および実データに対する最大 SGD 学習率の定性的予測を高い精度で、ある程度の定量性をもって提供し、経験的結果と一致する。
  • MNIST および CIFAR10 の経験的結果は、ブールキューブおよび高次元理論を裏付け、スペクトルと訓練挙動の予測に寄与する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。