[論文レビュー] Tensor Programs I: Wide Feedforward or Recurrent Neural Networks of Any Architecture are Gaussian Processes
この論文は、標準的なアーキテクチャの広い前向きおよびリカレントニューラルネットワークがガウス過程へ収束することを証明し、計算を表現するNETSORを導入し、さまざまなアーキテクチャのGPカーネルを導出する。
Wide neural networks with random weights and biases are Gaussian processes, as originally observed by Neal (1995) and more recently by Lee et al. (2018) and Matthews et al. (2018) for deep fully-connected networks, as well as by Novak et al. (2019) and Garriga-Alonso et al. (2019) for deep convolutional networks. We show that this Neural Network-Gaussian Process correspondence surprisingly extends to all modern feedforward or recurrent neural networks composed of multilayer perceptron, RNNs (e.g. LSTMs, GRUs), (nD or graph) convolution, pooling, skip connection, attention, batch normalization, and/or layer normalization. More generally, we introduce a language for expressing neural network computations, and our result encompasses all such expressible neural networks. This work serves as a tutorial on the *tensor programs* technique formulated in Yang (2019) and elucidates the Gaussian Process results obtained there. We provide open-source implementations of the Gaussian Process kernels of simple RNN, GRU, transformer, and batchnorm+ReLU network at github.com/thegregyang/GP4A.
研究の動機と目的
- MLPや単純なCNNを超える広い、ランダムに初期化されたネットワークに対するNN-GP対応を動機づけ、形式化する。
- NETSORをニューラルネットワークの計算を統一的に表現する言語として導入する。
- 大幅な幅極限においてNETSORで表現可能なアーキテクチャの一般的なガウス過程収束結果を証明する。
- いくつかのアーキテクチャ(例:単純なRNN、GRU、トランスフォーマー、バッチ正規化を含むネットワーク)のカーネル計算とオープンソース実装を提供する。
- 行列転置やニューラルタンジェントカ Kernel解析への将来の拡張の基礎を築く。
提案手法
- RNNを扱うために可変次元出力を持つガウス過程を定義する。
- 標準的なニューラルネットワーク計算を表現するNETSORおよびNETSOR+言語を開発する。
- 定理5.4(NETSORマスター定理)を確立し、制御された非線形性の下で幅が無限大に発散することでほぼ確実にガウス過程へ収束することを示す。
- NETSOR符号化からGPカーネルを計算するための系5.5の推論を導出する。
- 単純なRNN、GRU、トランスフォーマー、バッチ正規化+ReLUなどのアーキテクチャのカーネル計算と経験的検証を提供する。
- 無限幅極限に対応するカーネル実装のオープンソース提供。
実験結果
リサーチクエスチョン
- RQ1標準アーキテクチャ(RNN、LSTM、GRU、CNN、注意機構ベースのモデル、バッチ正規化/LN変種を含む)を持つ広いニューラルネットワークはガウス過程へ収束するか?
- RQ2単一の言語(NETSOR)はこれらのアーキテクチャを表現し、一般的なGP収束結果を可能にするか?
- RQ3NETSOR符号化から多様なアーキテクチャのGPカーネルをどのように計算できるか?
- RQ4アーキテャクチャを横断する有限幅ネットワークに対する無限幅GP予測の経験的妥当性はどの程度か?
- RQ5注意機構や正規化層など現代的な成分へGP対応を拡張することの理論的・実践的影響は何か?
主な発見
- 標準アーキテクチャの広い前向き・再帰型ネットワークは、幅が無限大に近づくと重みとバイアスをランダム化した状態でガウス過程へ収束する。
- NETSORフレームワークはニューラルネットワーク計算の表現を統一し、RNN、GRU、トランスフォーマー、スキップ接続、プーリング、バッチ正規化、レイヤー正規化などのアーキテクチャのGP収束結果を可能にする。
- NETSORマスター定理は、平均μと共分散Σを持つガウス入力を介して極限分布とGPカーネルを計算する方法を提供する。
- 系の導関値により、ネットワーク出力は φ とプログラム構造によって決定されるカーネルKを持つ共分散の組として結合的にガウスになることを示す。
- 経験的なデモンストレーションは、有限幅ネットワーク(例:幅1000)がRNN、GRU、トランスフォーマー、BN+ReLUネットワーク全体で無限幅GP予測に近い共分散構造と結合分布を示すことを示す。
- 複数アーキテラのGPカーネルのオープンソース実装は github.com/thegregyang/GP4A に提供されている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。