Skip to main content
QUICK REVIEW

[論文レビュー] Deep Neural Networks as Gaussian Processes

Jaehoon Lee, Yasaman Bahri|arXiv (Cornell University)|Nov 1, 2017
Gaussian Processes and Bayesian Inference参考文献 16被引用数 335
ひとこと要約

本論文は、無限に広い深層ニューラルネットワークとガウス過程の厳密な同値を証明し、MNISTやCIFAR-10のような回帰タスクに対するベイズ推論を可能にする対応するGPカーネルを計算するスケーラブルな手法を提供する。

ABSTRACT

It has long been known that a single-layer fully-connected neural network with an i.i.d. prior over its parameters is equivalent to a Gaussian process (GP), in the limit of infinite network width. This correspondence enables exact Bayesian inference for infinite width neural networks on regression tasks by means of evaluating the corresponding GP. Recently, kernel functions which mimic multi-layer random neural networks have been developed, but only outside of a Bayesian framework. As such, previous work has not identified that these kernels can be used as covariance functions for GPs and allow fully Bayesian prediction with a deep neural network. In this work, we derive the exact equivalence between infinitely wide deep networks and GPs. We further develop a computationally efficient pipeline to compute the covariance function for these GPs. We then use the resulting GPs to perform Bayesian inference for wide deep neural networks on MNIST and CIFAR-10. We observe that trained neural network accuracy approaches that of the corresponding GP with increasing layer width, and that the GP uncertainty is strongly correlated with trained network prediction error. We further find that test performance increases as finite-width trained networks are made wider and more similar to a GP, and thus that GP predictions typically outperform those of finite-width networks. Finally we connect the performance of these GPs to the recent theory of signal propagation in random neural networks.

研究の動機と目的

  • 深く、無限に広いニューラルネットワークとガウス過程(GPs)との厳密な対応関係を確立する。
  • 層と非線形性を横断する深層ネットワークGPの再帰的で決定論的なカーネル計算を導出する。
  • 得られたGPを用いたベイズ推論が、標準的なベンチマークで有限幅のニューラルネットワークと同等またはそれを上回ることを示す。
  • NNGPをMNISTとCIFAR-10に適用し、SGDで訓練されたネットと比較することで実用的な実現可能性を示す。
  • GPの性能を、ランダムネットワークにおける信号伝搬理論と結びつける。

提案手法

  • 中心極限定理を用いた層別の無限幅リミットによってNNGPカーネルを導出する。
  • 再帰的カーネル更新式K^l(x, x') = σ_b^2 + σ_w^2 F_φ(K^{l-1}(x, x'), K^{l-1}(x, x), K^{l-1}(x', x')), ただしF_φは非線形関数φに依存する。
  • 特定のφに対する解析解(例:ReLUのarccosineカーネル)を提供し、一般的なφに対してF_φを計算する数値手法を提供する。
  • 前処理と二重線形補間スキームを用いて計算量を削減する効率的な実装を開発し、K^Lを計算する。
  • 導出されたカーネルを用いたガウス過程回帰を用いて、回帰ターゲットに対する厳密なベイズ推論(不確実性評価を含む)を実行する。
  • カーネルの挙動を深い信号伝搬理論と、ランダムネットワークの位相図と関連付ける。

実験結果

リサーチクエスチョン

  • RQ1深く、無限幅のニューラルネットワークは、計算可能な共分散カーネルを持つガウス過程として厳密に表現できるか。
  • RQ2深さLと非線形性φの選択がGPカーネルと画像分類タスクにおける予測性能にどう影響するか。
  • RQ3NNGPカーネルを用いたGP後方予測は、MNISTやCIFAR-10のようなデータセットでSGDで訓練された有限幅ニューラルネットワークに対して競争力のある、または優れた結果を提供するか。
  • RQ4GPの不確実性とテストデータ上の実際の予測誤差がどのように相関するか。
  • RQ5NNGPの性能と、ランダムなニューラルネットワークにおける信号伝搬の最近の理論との関連はあるか。

主な発見

  • NNGPは、比較可能な設定下でMNISTおよびCIFAR-10のSGDで訓練された有限幅ネットワークをしばしば上回る。
  • ネットワーク幅が増加すると、訓練されたNNは性能面でNNGPに似てきており、広い領域でのSGD訓練ネットとベイズ推論との密接な関連を示唆する。
  • GPの不確実性推定は、テストデータ上の実際の予測誤差と高度に相関する。
  • 性能のピークは、異なる非線形性に対する深層信号伝搬の位相図(秩序相/カオス相)で予測される領域と一致する。
  • GPは予測に対して明示的で原理的な不確実性指標を提供するが、標準的なニューラルネットではこれは難しい。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。