QUICK REVIEW

[論文レビュー] Scaling Limits of Wide Neural Networks with Weight Sharing: Gaussian Process Behavior, Gradient Independence, and Neural Tangent Kernel Derivation

Greg Yang|arXiv (Cornell University)|Feb 13, 2019

Gaussian Processes and Bayesian Inference参考文献 78被引用数 187

ひとこと要約

この論文は広いニューラルネットワークのスケーリング極限を導出する統一的なテンソルプログラム枠組みを提示し、標準アーキテクチャにおけるバッチ正規化なしでガウス過程挙動、勾配独立性条件、Neural Tangent Kernelの収束を確立します。

ABSTRACT

Several recent trends in machine learning theory and practice, from the design of state-of-the-art Gaussian Process to the convergence analysis of deep neural nets (DNNs) under stochastic gradient descent (SGD), have found it fruitful to study wide random neural networks. Central to these approaches are certain scaling limits of such networks. We unify these results by introducing a notion of a straightline \emph{tensor program} that can express most neural network computations, and we characterize its scaling limit when its tensors are large and randomized. From our framework follows (1) the convergence of random neural networks to Gaussian processes for architectures such as recurrent neural networks, convolutional neural networks, residual networks, attention, and any combination thereof, with or without batch normalization; (2) conditions under which the \emph{gradient independence assumption} -- that weights in backpropagation can be assumed to be independent from weights in the forward pass -- leads to correct computation of gradient dynamics, and corrections when it does not; (3) the convergence of the Neural Tangent Kernel, a recently proposed kernel used to predict training dynamics of neural networks under gradient descent, at initialization for all architectures in (1) without batch normalization. Mathematically, our framework is general enough to rederive classical random matrix results such as the semicircle and the Marchenko-Pastur laws, as well as recent results in neural network Jacobian singular values. We hope our work opens a way toward design of even stronger Gaussian Processes, initialization schemes to avoid gradient explosion/vanishing, and deeper understanding of SGD dynamics in modern architectures.

研究の動機と目的

「重み共有の下でほぼすべてのニューラルネット計算を表現する統一的なテンソルプログラム枠組みを定義する。」「Glorot型初期化の下で幅が無限大に近づくときのこれらプログラムのスケーリングリミットを特徴づける。」「RNN、CNN、ResNets、アテンションなどの広いアーキテクチャに対してガウス過程挙動を導出する。」「勾配独立性の仮定が正しい勾配ダイナミクスを導く条件を分析し、誤る場合には修正を提供する。」「バッチ正規化なしのアーキテクチャに対して初期化時のNeural Tangent Kernelの収束を証明する。」],
method:[
「G-, A-, H-変数を用いたテンソルプログラムを導入してニューラル計算を符号化する。
「重みと入力の共通次元クラス（CDCs）とサンプリング方式を定義する。
「広い極限の下でG-変数が平均と共分散を計算可能な形でGaussianへ収束することを示す（定理4.3、5.1、6.3）。
「標準アーキテクチャに対して広い非線形性の下でDNN-GP対応を導出する（系統的な Corollary 2.1）。
「（非公式の）勾配独立性の妥当性を導出し（Corollary 2.3）、必要に応じて修正を提供する。
「バッチ正規化なしで有限の入力集合に対して初期化時のNeural Tangent Kernelの収束Kθ → K∞を確立する（Corollary 2.4）。

提案手法

G-変数、A-変数、H-変数を用いたテンソルプログラムを導入してニューラル計算を符号化する。
重みと入力の共通次元クラス（CDCs）とサンプリング方式を定義する。
広い極限の下でG-変数がガウス分布へ収束し、平均と共分散を計算可能であることを証明する（定理4.3、5.1、6.3）。
標準アーキテクチャに対して広範な非線形性の下でDNN-GP対応を導出する（系 Corollary 2.1）。
（非公式の）勾配独立性の妥当性を導出し、必要に応じて正確な修正を提供する（Corollary 2.3）。
バッチ正規化なしで有限の入力集合に対して初期化時のNeural Tangent Kernelの収束Kθ → K∞を確立する（Corollary 2.4）。

実験結果

リサーチクエスチョン

RQ1重み共有を伴う広いニューラルネットが、一般的なアーキテクチャ across でガウス過程へ収束する条件は何か？
RQ2勾配独立性仮定はバックプロパゲーションに対していつ妥当で、もし失敗した場合には正しい勾配ダイナミクスをどう計算するか？
RQ3バッチ正規化なしの標準アーキテクチャにおいて初期化時のNeural Tangent Kernelはどう振る舞い、どのとき極限カーネルK∞へ収束するのか？
RQ4この枠組みは古典的な乱マトリクス結果（例えばセミサークル分布、Marchenko-Pastur分布）を特別なケースとして再現できるか？
RQ5さまざまなアーキテクチャ（RNN、CNN、残差、アテンション）におけるスケーリング極限における重み共有（転置）の役割は何か？

主な発見

DNN-GP対応は標準アーキテクチャと非線形性に一般化でき、幅が大きくなるとガウス過程リミットを生み出す（Corollary 2.1）。
勾配独立性仮定は多項式に有界な非線形性の下で正しいバックプロパゲーションダイナミクスをもたらし、失敗時には明確な修正を提供する（Corollary 2.3）。
バッチ正規化なしの標準アーキテクチャに対して初期化時のNeural Tangent Kernelが有限の入力集合で極限K∞へ収束する（Corollary 2.4）。
テンソルプログラム枠組みは古典的な乱マトリクス結果を再導出し、関連アルゴリズム（例：AMP）における状態進化様式と関連づけられる。
信号伝播と勾配ダイナミクスを解析する一般的な方法を提供し、勾配の発散/消失を避ける初期化スキームの設計を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。