Skip to main content
QUICK REVIEW

[論文レビュー] Mean-field theory of two-layers neural networks: dimension-free bounds and kernel limit

Mei Song, Theodor Misiakiewicz|arXiv (Cornell University)|Feb 16, 2019
Stochastic Gradient Optimization Techniques参考文献 21被引用数 93
ひとこと要約

本論文は、2層ネットワークにおける SGD の平均場近似に対して次元に依存しない非漸近境界を証明し、無界活性化関数とノイズ付き SGD への拡張を行い、カーネル極限における平均場ダイナミクスをカーネルリッジ回帰と結びつける。

ABSTRACT

We consider learning two layer neural networks using stochastic gradient descent. The mean-field description of this learning dynamics approximates the evolution of the network weights by an evolution in the space of probability distributions in $R^D$ (where $D$ is the number of parameters associated to each neuron). This evolution can be defined through a partial differential equation or, equivalently, as the gradient flow in the Wasserstein space of probability distributions. Earlier work shows that (under some regularity assumptions), the mean field description is accurate as soon as the number of hidden units is much larger than the dimension $D$. In this paper we establish stronger and more general approximation guarantees. First of all, we show that the number of hidden units only needs to be larger than a quantity dependent on the regularity properties of the data, and independent of the dimensions. Next, we generalize this analysis to the case of unbounded activation functions, which was not covered by earlier bounds. We extend our results to noisy stochastic gradient descent. Finally, we show that kernel ridge regression can be recovered as a special limit of the mean field analysis.

研究の動機と目的

  • SGD の下での2層ニューラルネットワークにおける学習の平均場記述を動機づけ、解析する。
  • SGD と PDE/平均場ダイナミクスとの間の次元に依存しない非漸近近似保証を導出する。
  • 無界活性化とノイズ付き SGD への分析の拡張。
  • 平均場ダイナミクスのカーネル極限としてカーネルリッジ回帰が現れることを示す。

提案手法

  • パラメータ θ_i=(a_i, w_i) および活性化 σ* を持つ N 個のニューロンの平均としてネットワークをモデル化し、ニューロンの経験分布 ^(N) を研究する。
  • Ψ およびその成分 V/U を用いた分布空間 ρ_t 上の平均場進化を PDE として定式化する。
  • SGD が平均場 PDE を近似することを示す次元に依存しない境界を証明し、誤差が 1/√N で減衰し、√(D+log N) および √ε の項を含むことを示す。
  • ノイズ付き SGD へ拡張し、拡張された仮定の下で拡散-DD PDE を導入し境界を与える。
  • スケール α によるカーネル極限を導入し、短時間/線形化領域でカーネルリッジ回帰と整合する残差ダイナミクスを生み出す。
  • 残差とカーネル進化の結合ダイナミクスを実証し、線形化ダイナミクスを介してカーネル極限を解析する。

実験結果

リサーチクエスチョン

  • RQ1どのような条件下で平均場PDEは2層ネットワークに対する SGD の次元に依存しない近似を提供するのか?
  • RQ2無界活性化とノイズ付き SGD は平均場近似の精度にどのような影響を与えるのか?
  • RQ3平均場ダイナミクスのカーネル極限としてカーネルリッジ回帰を回復できるか、そしてこの極限の性質はどのようなものか?
  • RQ4カーネル/平均場結合へスケールパラメータ α を導入したとき何が変わり、収束と残差ダイナミクスにどのような影響を与えるか?
  • RQ5SGDと平均場記述との近似境界の定量的な速度と N・D・ε・T による依存関係は何か?

主な発見

  • 平均場近似が成り立つには、隠れ層ユニット数 N がデータの正規性に依存する量を超える必要があり、次元 D には依存しない。
  • 適切な条件の下、有界・無界活性化の双方について次元に依存しない境界が確立される。
  • 固定係数設定のノイズ付き SGD は拡散項を PDE に持つ次元に依存しない境界を持つが、係数が無界な場合のいくつかのケースでは完全な次元に依存しないスケーリングを失う。
  • 短時間・線形化ダイナミクスを介した平均場解析の特別な極限として kernel ridge regression を回復できる。
  • 残差進化と結合したカーネル極限ダイナミクスはデータ依存の時変カーネルを示し、平均場 SGD とカーネル手法の橋渡しを提供する。
  • 活性化の境界の緩和、ノイズの組み込み、次元依存性の排除を証明することで、先行研究を一般化している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。