Skip to main content
QUICK REVIEW

[論文レビュー] Convolutional Gaussian Processes

Mark van der Wilk, Carl Edward Rasmussen|arXiv (Cornell University)|Sep 6, 2017
Gaussian Processes and Bayesian Inference参考文献 14被引用数 53
ひとこと要約

この論文は、画像データのスケーラブルで畳み込みを意識したGP推論を可能にする、 inter-domain inducing-point 近似を用いたガウス過程の畳み込みカーネルを紹介し、周辺尤度を介して畳み込み成分とRBF成分を組み合わせる。

ABSTRACT

We present a practical way of introducing convolutional structure into Gaussian processes, making them more suited to high-dimensional inputs like images. The main contribution of our work is the construction of an inter-domain inducing point approximation that is well-tailored to the convolutional kernel. This allows us to gain the generalisation benefit of a convolutional kernel, together with fast but accurate posterior inference. We investigate several variations of the convolutional kernel, and apply it to MNIST and CIFAR-10, which have both been known to be challenging for Gaussian processes. We also show how the marginal likelihood can be used to find an optimal weighting between convolutional and RBF kernels to further improve performance. We hope that this illustration of the usefulness of a marginal likelihood will help automate discovering architectures in larger models.

研究の動機と目的

  • Convolutional structure を Gaussian processes に組み込み、画像のような高次元入力での一般化を改善する。
  • 畳み込みカーネルに合わせた inter-domain inducing point 近似を開発し、スケーラブルな推論を実現する。
  • 畳み込みカーネルのバリエーションを探索し、画像データセットでの性能を評価する。
  • 周辺尤度が畳み込み成分と非畳み込み成分(例:RBF)を自動的に重み付けして性能を最適化することを示す。

提案手法

  • パッチ応答関数 g を GP prior として適用し、パッチ応答を合計して f を形成することで、パッチ空間の畳み込みカーネルを得る。
  • inducing inputs と inter-domain inducing variables を用いた変分スパース GP の枠組みを採用し、スケーラブルな推論(ELBO 最適化)を実現する。
  • 畳み込みカーネルの inter-domain 共分散を導出し、パッチ空間に inducing points を配置してカーネル評価コストを削減する。
  • 翻訳不変、ウェイト付き、マルチチャンネルの畳み込みカーネルを探索し、RBF カーネルと結合したジョイント GP で周辺尤度を用いて組み合わせる。
  • カラー画像に対して色パッチやマルチチャンネル変種を含むアプローチで拡張し、MNIST および CIFAR-10 データセットに適用する。

実験結果

リサーチクエスチョン

  • RQ1 inter-domain inducing points を介して畳み込みカーネルをガウス過程に埋め込み、画像のパッチベース推論をスケーラブルに行えるか?
  • RQ2 畳み込みカーネルの異なるバリアント(翻訳不変、ウェイト付き、カラー対応)は MNIST や CIFAR-10 のような標準的な画像ベンチマークでどのように比較されるか?
  • RQ3 周辺尤度は畳み込み構造と非畳み込み成分(例:RBF)を効果的にバランス取って予測性能を向上させるか?
  • RQ4 異なる畳み込み GP カーネルで inter-domain inducing 変数と標準 inducing points のトレードオフは何か?

主な発見

KernelMError (%)NLPP
翻訳不変7502.080.077
RBF7501.900.068
加重7501.220.048
加重 + RBF7501.170.039
  • 翻訳不変の畳み込み GP がパッチ空間の inducing points で MNIST において RBF ベースラインより少ない inducing points で競争力のある結果を示す。
  • ウェイト付き畳み込みカーネルは MNIST の誤差を 1.22% (NLPP 0.048) に大幅に改善し、RBF は 1.90% (NLPP 0.068) だった。
  • ウェイト付き畳み込みと RBF 成分の組み合わせは MNIST の誤差をさらに 1.17% (NLPP 0.039) に低減。
  • 全体の MNIST において、ウェイト付き畳み込みカーネルは翻訳不変および RBF カーネルを上回り、混合が最良の NLPP と低い誤差を実現。
  • CIFAR-10 ではマルチチャンネル畳み込みカーネルが RBF を大幅に上回り、テスト誤差を 35.4% に対して 48.6%(RBF)から改善。
  • CIFAR-10 の結果は、カラー相互作用をモデリングする場合に畳み込み構造が大きな利益を提供することを示唆。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。