QUICK REVIEW

[論文レビュー] Bayesian Convolutional Neural Networks with Many Channels are Gaussian Processes.

Roman Novak, Lechao Xiao|arXiv (Cornell University)|Oct 11, 2018

Gaussian Processes and Bayesian Inference被引用数 13

ひとこと要約

この論文は、多くのチャネルを持つベイジアン畳み込みニューラルネットワーク（CNN）が、学習を経ずに正確なGP推論を可能にするガウス過程（GP）に収束することを確立している。解析的形が困難な場合でも、そのようなGPを推定するためのモンテカルロ法を導入し、驚くべきことに、重み共有が無限チャネル極限におけるGPに影響を与えないことが判明し、SGDで学習された有限ネットワークとは顕著な差異が示された。

ABSTRACT

There is a previously identified equivalence between wide fully connected neural networks (FCNs) and Gaussian processes (GPs). This equivalence enables, for instance, test set predictions that would have resulted from a fully Bayesian, infinitely wide trained FCN to be computed without ever instantiating the FCN, but by instead evaluating the corresponding GP. In this work, we derive an analogous equivalence for multi-layer convolutional neural networks (CNNs) both with and without pooling layers, and achieve state of the art results on CIFAR10 for GPs without trainable kernels. We also introduce a Monte Carlo method to estimate the GP corresponding to a given neural network architecture, even in cases where the analytic form has too many terms to be computationally feasible. Surprisingly, in the absence of pooling layers, the GPs corresponding to CNNs with and without weight sharing are identical. As a consequence, translation equivariance, beneficial in finite channel CNNs trained with stochastic gradient descent (SGD), is guaranteed to play no role in the Bayesian treatment of the infinite channel limit - a qualitative difference between the two regimes that is not present in the FCN case. We confirm experimentally, that while in some scenarios the performance of SGD-trained finite CNNs approaches that of the corresponding GPs as the channel count increases, with careful tuning SGD-trained CNNs can significantly outperform their corresponding GPs, suggesting advantages from SGD training compared to fully Bayesian parameter estimation.

研究の動機と目的

多くのチャネルを持つベイジアンCNNとガウス過程の間の同等性を確立し、既知のFCN-GP同等性を畳み込みアーキテクチャに拡張すること。
解析的表現が複雑すぎて直接計算が困難な場合でも、与えられたCNNアーキテクチャに対応するGPを計算可能な方法で推定すること。
ベイジアンCNNの無限チャネル極限における重み共有および平行移動不変性の役割を調査し、有限のSGDで学習されたモデルと対比すること。
SGDで学習された有限CNNとそれに対応するベイジアン無限チャネルGPとの間の性能差を評価すること。

提案手法

無限チャネル極限において、プーリング層を含む・含まない多層CNNに対応する関数的形のGPを導出する。
解析的表現に計算量が多すぎて直接評価できない場合に、GPカーネルを推定するためのモンテカルロサンプリング法を導入する。
プーリングのないCNNでは、重み共有の有無に関わらずGPが同一であることを示し、無限極限では平行移動不変性が影響しないことを示唆する。
導出したGPを用いて、ニューラルネットワークの学習を経ずにテストセットの予測を実行し、GPの閉形式推論の利点を活用する。
GPカーネルを用いて、学習可能なカーネルを一切使用せず、アーキテクチャ上の事前分布のみを用いてCIFAR10でSOTAの性能を達成する。

実験結果

リサーチクエスチョン

RQ1広い全結合ネットワークとガウス過程の同等性は、多くのチャネルを持つ畳み込みニューラルネットワークにも拡張可能か？
RQ2解析的カーネル表現が計算的に不適切な場合、与えられたCNNアーキテクチャに対応するGPをどのように推定できるか？
RQ3ベイジアンCNNの無限チャネル極限において、重み共有または平行移動不変性はGPに影響を与えるか？
RQ4SGDで学習された有限CNNの性能は、それに対応するベイジアン無限チャネルGPと比べてどの程度異なるか？

主な発見

多くのチャネルを持つベイジアンCNNはガウス過程に収束し、ネットワークの学習を経ずに正確なテストセット予測が可能になる。
プーリングのないCNNでは、重み共有の有無に関わらずGPが同一であるため、無限チャネル極限では平行移動不変性が影響しないことが示唆される。
提案されたモンテカルロ法により、解析的カーネルが直接評価が困難なCNNに対してもGP推論が可能になる。
GPに基づくアプローチは、学習可能なカーネルを一切使用せず、従来のGPベースの手法を上回るCIFAR10でのSOTA性能を達成した。
同じGPに収束するにもかかわらず、慎重にチューニングされたSGDで学習された有限CNNは、それに対応するベイジアンGPを著しく上回る性能を示し、SGD最適化の利点が顕在化している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。