Skip to main content
QUICK REVIEW

[論文レビュー] Towards Understanding the Spectral Bias of Deep Learning

Yuan Cao, Zhiying Fang|arXiv (Cornell University)|Dec 3, 2019
Stochastic Gradient Optimization Techniques参考文献 57被引用数 64
ひとこと要約

この論文はスペクトルバイアスをニューラルタンジェントカ kernel(NTK)を用いて分析し、勾配降下法が NTK の固有関数に沿って固有値に関連する速度で収束することを証明し、均一球データのケーススタディで低次数の球面調和関数がより速く学ばれることを実験で裏付ける。

ABSTRACT

An intriguing phenomenon observed during training neural networks is the spectral bias, which states that neural networks are biased towards learning less complex functions. The priority of learning functions with low complexity might be at the core of explaining generalization ability of neural network, and certain efforts have been made to provide theoretical explanation for spectral bias. However, there is still no satisfying theoretical result justifying the underlying mechanism of spectral bias. In this paper, we give a comprehensive and rigorous explanation for spectral bias and relate it with the neural tangent kernel function proposed in recent work. We prove that the training process of neural networks can be decomposed along different directions defined by the eigenfunctions of the neural tangent kernel, where each direction has its own convergence rate and the rate is determined by the corresponding eigenvalue. We then provide a case study when the input data is uniformly distributed over the unit sphere, and show that lower degree spherical harmonics are easier to be learned by over-parameterized neural networks. Finally, we provide numerical experiments to demonstrate the correctness of our theory. Our experimental results also show that our theory can tolerate certain model misspecification in terms of the input data distribution.

研究の動機と目的

  • 過parameter化されたニューラルネットワークにおけるスペクトルバイアスを動機づけ、形式化する。
  • スペクトルバイアスを neural tangent kernel(NTK)とその固有構造に結びつける。
  • NTK の固有方向に沿った一般的な収束結果を提供する。
  • 均一な球データに対するNTKスペクトルを特徴づけ、低次数の調和関数の学習と関連づける。
  • 設定を横断する数値実験で理論的所見を検証する。

提案手法

  • NTK レジームでニューラルネットワークをモデル化し、NTK 固有関数に沿った勾配降下ダイナミクスを導く。
  • 二層 ReLU ネットワークの NTK を定義し、それを次数 0 および 1 の arc-cosine カーネルの和として表現する。
  • 収束方向を記述するために積分作用素 L_kappa とその固有関数/固有値を導入する。
  • 特定のサンプル数と幅の条件の下で、NTK 固有方向に沿った収束が対応する固有値に依存するという一般定理を証明する。
  • 均一な球データの下で NTK のスペクトル解析を行い、明示的な固有値/固有関数(球面調和関数)とその減衰率を得る。
  • 均一な球データに対する明示的な収束速度を提供するに等しい系の推移を提供し、学習速度を固有値に結びつける。

実験結果

リサーチクエスチョン

  • RQ1過parameter化されたネットワークにおける勾配降下法は NTK の固有方向に沿ってどのように振る舞うか。
  • RQ2NTK の固有値は、ターゲット関数の異なる周波数成分の学習収束速度をどのように支配するか。
  • RQ3入力が単位球上に一様に分布する場合のNTK のスペクトルはどうなるか、そしてそれが球面調和関数とどう関連するか。
  • RQ4現実的な幅とサンプルサイズ条件の下で、低次数成分は高次数成分より速く学習できるか。

主な発見

  • NTK エigenspace への訓練誤差の射影は、対応する固有値により決まる速さで収束する。
  • 低周波成分(より大きい NTK 固有値)はより速く学習され、より狭いネットワークで少ないサンプルで学習される。
  • データが球上に一様分布する場合、NTK の固有関数は球面調和関数と整列し、固有値は k >> d の場合 mu_k = Omega(k^{-d-1})、d >> k の場合 Omega(d^{-k+1}) となって減衰する。
  • 理論は任意のターゲット関数に対して成り立ち、ターゲットが NTK に誘導される RKHS に属する必要はない。
  • 球面調和関数の組み合わせや単純な関数の学習に関する実験は、射影残差収束率を裏付ける。
  • データ分布の特定のモデル誤指定を許容する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。