[論文レビュー] Deep Convolutional Networks as shallow Gaussian Processes
この論文は、CNN(ResNetsを含む)を無限に多くの畳み込みフィルタを持つ場合、導出された効率的なカーネルを用いたガウス過程と等価であることを示す。ConvNet GPはパラメトリックなCNNを訓練せずに競争力のあるMNISTの結果を達成する。
We show that the output of a (residual) convolutional neural network (CNN) with an appropriate prior over the weights and biases is a Gaussian process (GP) in the limit of infinitely many convolutional filters, extending similar results for dense networks. For a CNN, the equivalent kernel can be computed exactly and, unlike "deep kernels", has very few parameters: only the hyperparameters of the original CNN. Further, we show that this kernel has two properties that allow it to be computed efficiently; the cost of evaluating the kernel for a pair of images is similar to a single forward pass through the original CNN with only one filter per layer. The kernel equivalent to a 32-layer ResNet obtains 0.84% classification error on MNIST, a new record for GPs with a comparable number of parameters.
研究の動機と目的
- 安全性が重要な設定におけるCNNの不確実性推定と頑健なベイズ推論を動機づける。
- 深層CNNと無限のフィルタを持つResNetがガウス過程に収束することを確立する。
- 対角共分散とパッチ単位の構造を利用するConvNet GPの効率的なカーネルを導出する。
- MNISTにおける実証的性能を示し、GPベースの結果として競争力あるまたは最先端を示す。
提案手法
- 各層ごとにガウス重みとバイアスを持つ2D畳み込みネットワーク事前分布を定義する。
- フィルタ数が無限大に近づくとき層全体にわたって多変量中心極限定理を適用してGP挙動を証明する。
- ネットワークを横断して対角共分散のみを伝搬させることにより計算効率の高いカーネルを導出する(パッチ毎の分散)。
- 一般的な非線形性(例:ReLU、erf)に対する閉形式の共分散更新を提供してカーネルを計算する。
- スキップ接続を持つ残差CNNにもGP挙動が保存されることを示してカーネルを拡張する。
- MNISTを用いてConvNet GP、Residual CNN GP、ResNet GPを他のGPベースの基準と比較する実験。
実験結果
リサーチクエスチョン
- RQ1無限フィルタ極限においてCNNまたはResNetアーキテクチャは厳密にガウス過程として表現できるか。
- RQ2翻訳不変性と構造を保持するCNNベースのGPの効率的なカーネルをどのように計算できるか。
- RQ3以前のGPアプローチと比べたと MNIST におけるCNN/ResNet GPカーネルの実証的性能はどの程度か。
- RQ4残差接続はGP特性を保存し、画像タスクにおけるカーネルベースの性能を向上させるか。
主な発見
| Method | #samples | Validation error | Test error |
|---|---|---|---|
| NNGP (Lee et al. 2017) | ≈ 250 | – | 1.21% |
| Convolutional GP (van der Wilk et al. 2017) | SGD | – | 1.17% |
| Deep Conv. GP (Kumar et al. 2018) | SGD | – | 1.34% |
| ConvNet GP | 27 | 0.71% | 1.03% |
| Residual CNN GP | 27 | 0.71% | 0.93% |
| ResNet GP | – | – | 0.84% |
| GP + parametric deep kernel (Bradshaw et al., 2017) | SGD | – | 0.60% |
| ResNet (Chen et al., 2018) | – | – | 0.41% |
- 適切な重み/バイアス事前分布を持つCNNの出力は、無限フィルタ極限でGPに収束する(残差 varianteを含む)。
- CNNに対して厳密で計算効率の良いカーネルを導出でき、元のCNNハイパーパラメータのみを必要とする。
- カーネル評価コストは、層ごとに1つのフィルタを用いた対応するCNNの1回のフォワードパスと同程度である。
- 32層のResNet GPはMNISTで0.84%のテスト誤差を達成し、同等のパラメータ数を持つ非パラメトリックGP手法の新記録を打ち立てる。
- Kernel-based CNNs outperform prior nonparametric GP approaches on MNIST under the reported settings.
- Residual CNN GP and ResNet GP show strong performance relative to NNGP and other convolutional GP baselines.
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。