Skip to main content
QUICK REVIEW

[論文レビュー] Gradient Dynamics of Shallow Univariate ReLU Networks

Francis Williams, Matthew Trager|arXiv (Cornell University)|Jun 18, 2019
Stochastic Gradient Optimization Techniques参考文献 34被引用数 36
ひとこと要約

この論文は1D入力を持つ過 parameterized shallow ReLU ネットワークの勾配ダイナミクスを分析し、カーネルと適応学習レジームを明らかにし、それらが三次スプラインと線形スプラインの插値を生み出すことを示す。

ABSTRACT

We present a theoretical and empirical study of the gradient dynamics of overparameterized shallow ReLU networks with one-dimensional input, solving least-squares interpolation. We show that the gradient dynamics of such networks are determined by the gradient flow in a non-redundant parameterization of the network function. We examine the principal qualitative features of this gradient flow. In particular, we determine conditions for two learning regimes:kernel and adaptive, which depend both on the relative magnitude of initialization of weights in different layers and the asymptotic behavior of initialization coefficients in the limit of large network widths. We show that learning in the kernel regime yields smooth interpolants, minimizing curvature, and reduces to cubic splines for uniform initializations. Learning in the adaptive regime favors instead linear splines, where knots cluster adaptively at the sample points.

研究の動機と目的

  • 過剰パラメータ化された1D ReLUネットワークにおける勾配降下法がパラメータをどのように進化させるかを理解する
  • 初期化と層のスケーリングが学習レジームを決定する方法を特定する
  • 縮約された(標準的)パラメータダイナミクスと、それらと全パラメータダイナミクスとの関係を特徴づける
  • カーネルダイナミクスが三次スプラインに対応し、適応ダイナミクスが線形スプラインに対応することを示す
  • 幅mと正規化が訓練軌道と一般化能力を形成する役割を探る

提案手法

  • 幅mが大きくなる極限挙動を調べるため、ネットワーク関数の標準的なパラメータ化を採用する
  • 平均場理論を用いてネットワーク出力をパラメータ空間上の測度の積分として表現し、Wasserstein勾配流を導出する
  • 勾配流の下でパラメータ測度の進化を記述する偏微分方程式(連続の式)を導出する
  • 残差ダイナミクスを分析し、ニューロンがサンプル点に蓄積する時とカーネル様の運動に従う時を記述する
  • 初期化不変量に依存する計量変換を介して、全パラメータ勾配ダイナミクスを縮約された標準ダイナミクスと関連付ける
  • 無限幅極限におけるカーネルダイナミクスを特徴づけ、解をRKHSノルムと三次スプラインに結びつける
  • デルタ不変量を介した異なる初期化が、カーネルと適応レジームの間をどのように補間するかを検討する
  • スケーリングパラメータ alpha(m) が lazy(カーネル様)と active(適応)学習レジームに与える影響を論じる
  • 一様初期化とガウス初期化を比較し、得られる接線カーネルへの影響を検討する

実験結果

リサーチクエスチョン

  • RQ1初期化とスケーリングのどの条件がカーネル型と適応型学習レジームを区別づけるか?
  • RQ2様々なパラメータ化の下で、縮約された標準ダイナミクスは全パラメータダイナミクスとどのように関係するか?
  • RQ31D浅いReLUネットのカーネルと適応レジームで現れる機能形態は何か(三次スプライン対線形スプライン)?
  • RQ4幅mと正規化alpha(m) が勾配流と一般化挙動にどのように影響するか?
  • RQ5残差ダイナミクスがサンプル点でのニューロンの蓄積に与える影響は何か?

主な発見

  • カーネルダイナミクスでは、学習は曲率を最小化する滑らかな插値を生み出し、適切な初期化の下で三次スプラインに対応する
  • 適応ダイナミクスでは、ニューロンはサンプル点に集まり、分岐ごとに線形の(線形スプライン)插値を生み出す
  • 標準パラメータダイナミクスは残差の進化のみに依存し、全パラメータダイナミクスは初期化不変量によって決まる計量によって異なる
  • 無限幅極限におけるカーネルダイナミクスを特徴づけ、解をRKHSノルムと三次スプラインに結びつける
  • NTKとランダム特徴カーネルは異なる正則性を示す:RKHSノルムは曲率のL2型制御を誘導し、L1型総変化ペナルティではない
  • スケールパラメータ alpha(m) を変えると、モデルは lazy(カーネル様)と active(適応)学習レジームの間を移動する
  • 一様初期化とガウス初期化は異なる明示的な接線カーネルを生み、 一様初期化は三次スプライン挙動へ、ガウスは異なるカーネル形へ結びつく

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。