Skip to main content
QUICK REVIEW

[論文レビュー] Asymptotics of Wide Networks from Feynman Diagrams

Ethan Dyer, Guy Gur-Ari|arXiv (Cornell University)|Sep 25, 2019
advanced mathematical theories参考文献 36被引用数 45
ひとこと要約

この論文は、Feynman図に触発された一般的でダイアグラム的手法を開発し、広いニューラルネットワークの相関関数の漸近挙動を境界付け、訓練ダイナミクスに適用して有限幅補正とより厳密な SGD/NTK 結果を得る。

ABSTRACT

Understanding the asymptotic behavior of wide networks is of considerable interest. In this work, we present a general method for analyzing this large width behavior. The method is an adaptation of Feynman diagrams, a standard tool for computing multivariate Gaussian integrals. We apply our method to study training dynamics, improving existing bounds and deriving new results on wide network evolution during stochastic gradient descent. Going beyond the strict large width limit, we present closed-form expressions for higher-order terms governing wide network training, and test these predictions empirically.

研究の動機と目的

  • 広い(大幅な幅をもつ)ニューラルネットワークとその訓練挙動の理解を動機づける。
  • 図法的アプローチを用いてネットワークの相関関数の漸近挙動を境界付ける一般的な方法を導入する。
  • 訓練ダイナミクスへこの方法を適用し、勾配流と SGD の進化に関する境界を引き締める。
  • 無限幅極限への有限幅補正を提供し、NTK(Neural Tangent Kernel)ダイナミクスと結びつける。

提案手法

  • 相関関数をネットワーク出力とパラメータに対する微分のアンサンブル平均として定義する。
  • 大幅な幅の挙動を境界づけるためにFeynman図技法を適用し、予想されるスケーリング境界(仮説1)を用いる。
  • 深層線形ネットワークに対しては仮説を厳密に証明し、非線形性(ReLU、tanh)や非ガウス初期化を持つネットワークについては証拠/部分証明を提供する。
  • 無限幅極限の周りで展開し、カーネルとネットワーク写像を連立方程式として解くことで訓練ダイナミクスへの有限幅補正を導く。
  • 図式寄与を計算し、その n に対する依存性を境界づけるためのフェインマンルールを開発・適用する。
  • 学習率が大幅幅極限で線形であり、NTKとネットワークの進化の主要な有限幅補正を計算する。

実験結果

リサーチクエスチョン

  • RQ1大幅幅極限で図法を用いて相関関数を境界付けできるか?
  • RQ2勾配流と SGD の下で有限幅補正はNTKとネットワークの進化をどう修正するか?
  • RQ3提案された境界は深層線形ネットワークを超えて ReLU や tanh の非線形活性化を持つネットワークにも適用できるか?
  • RQ4訓練ダイナミクスとNTK Hessianのスペクトル特性における一次有限幅補正は何か?

主な発見

  • 一般的な予測仮説は、畳み込みグラフの収束成分(偶/奇)により幅依存の冪指数で相関関数を境界づける。
  • 深層線形ネットワークでは仮説が証明される。ReLUまたは滑らかな活性化を持つ1つの隠れ層を含むネットワークでは、一定条件下で仮説は成り立つ。
  • 訓練ダイナミクスでは、NTKは勾配流と SGD の下で O(n^{-1}) の補正を除き不変。
  • ネットワーク写像とNTKへの主要な有限幅補正を閉形式で導出し、O_s 関数とNTKスペクトル上の積分で表現。
  • 実験(例:二クラスMNIST)は O(n^{-1}) スケーリングと、活性化と初期化スキームを越えて予測された有限幅補正を検証。
  • 手法は先行研究よりカーネル進化の境界を引き締め、広い幅の領域で SGD の学習率線形挙動を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。