QUICK REVIEW

[論文レビュー] Bayesian Deep Convolutional Networks with Many Channels are Gaussian Processes

Roman Novak, Lechao Xiao|arXiv (Cornell University)|Oct 11, 2018

Gaussian Processes and Bayesian Inference参考文献 67被引用数 48

ひとこと要約

本論文は、無限に多くのチャンネルを持つ深いCNNがガウス過程へ収束することを証明し、NN-GP対応をプーリングの有無にかわらずCNNに拡張し、解析的な形が不可能な場合にカーネルを推定するモンテカルロ法を導入している。

ABSTRACT

There is a previously identified equivalence between wide fully connected\nneural networks (FCNs) and Gaussian processes (GPs). This equivalence enables,\nfor instance, test set predictions that would have resulted from a fully\nBayesian, infinitely wide trained FCN to be computed without ever instantiating\nthe FCN, but by instead evaluating the corresponding GP. In this work, we\nderive an analogous equivalence for multi-layer convolutional neural networks\n(CNNs) both with and without pooling layers, and achieve state of the art\nresults on CIFAR10 for GPs without trainable kernels. We also introduce a Monte\nCarlo method to estimate the GP corresponding to a given neural network\narchitecture, even in cases where the analytic form has too many terms to be\ncomputationally feasible.\n Surprisingly, in the absence of pooling layers, the GPs corresponding to CNNs\nwith and without weight sharing are identical. As a consequence, translation\nequivariance, beneficial in finite channel CNNs trained with stochastic\ngradient descent (SGD), is guaranteed to play no role in the Bayesian treatment\nof the infinite channel limit - a qualitative difference between the two\nregimes that is not present in the FCN case. We confirm experimentally, that\nwhile in some scenarios the performance of SGD-trained finite CNNs approaches\nthat of the corresponding GPs as the channel count increases, with careful\ntuning SGD-trained CNNs can significantly outperform their corresponding GPs,\nsuggesting advantages from SGD training compared to fully Bayesian parameter\nestimation.\n

研究の動機と目的

無限チャンネル極限における深いCNNが誘導する関数空間事前分布の理解を促進する。
NN-GP等価性を全結合ネットワークから畳み込みアーキテクチャ（プーリングの有無を問わず）へ拡張する。
局所結合性、重み共有（等価性）、およびプーリング（不変性）がベイズCNNの性能に与える影響を分離・解明する。
解析的な形が困難なアーキテクチャに対して、CNN-GPカーネルを計算または近似する実用的手法を提供する。

提案手法

非線形性の導関数に関する緩い条件の下で、チャンネル数が多いCNNがNN-GP対応へ解析的に収束することを示す。
活性化共分散K^lと演算子AおよびCを用いて、アフィン変換と非線形変換の合成としてGPカーネルを導く。
プーリングがない場合、重み共有の有無にかかわらずCNNは同一のNN-GPカーネルを与えることを示す。
CNN出力をクラス別のGP共分散へ変換するベクトル化と射影読み出しを説明する。グローバル平均プーリングや単一画素サブサンプリング法を含む。
多数のランダムな有限幅ネットワークの平均化によってNN-GPカーネルを推定するモンテカルロ法（MC-GP）を導入し、Mnの増加とともに精度が向上する。
プーリングを伴うCNN-GPカーネルの計算における実用的なメモリ・計算上の考慮事項を論じ、厳密な解析よりスケールするMCアプローチを含む。

実験結果

リサーチクエスチョン

RQ1CNNの無限チャネル極限は正確にガウス過程に対応するのか、どの条件下でか。
RQ2プーリングと重み共有はGP極限と有限幅CNNの性能にどのような影響を与えるか。
RQ3解析的形が難しいプーリングを伴うアーキテクチャに対して、CNN-GPカーネルを効率的に計算できるか。
RQ4ベクトル化と射影読み出しはCNN出力をクラス間のGP共分散へどのように翻訳するか。
RQ5チャネル数が増加するにつれて、SGDで訓練された有限CNNと対応するCNN-GPの性能の実証的関係はどうなるか。

主な発見

多くのチャンネルを持つCNNは、無限チャンネル極限で決定論的カーネルを持つガウス過程へ分布収束する。
プーリングなしの場合、CNN-GPはLocally Connected Network GPと等価であり、平移等価性が無限幅ベイズ極限に影響を与えないことを強調する。
CNN-GPは局所的結合性のため一般にFCN-GPより優れており、プーリングは一部の読み出しスキームで平行移動不変なカーネルをさらに改善できる。
精度とカーネル計算はモンテカルロ推定（MC-GP）で補助でき、プーリングCNN-GPを実用的にする。
SGDで訓練した有限幅CNNは慎重なハイパーパラメータ調整により対応するCNN-GPを上回ることがあり、完全ベイズ的パラメータ推定を超えるSGDの利点を示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。