[論文レビュー] Random Feature Expansions for Deep Gaussian Processes
この論文は、共分散関数を近似するためのランダム特徴量拡張を用いたスケーラブルな深層ガウス過程(DGP)フレームワークを提案し、スケーリングされた変分推論を可能にすることで、効率的で確率的な学習を実現する。この手法は、MNIST8M(800万件のサンプル)やAIRLINE(500万件のフライト)といった大規模データセットにおいて、最大30層までをカバーする状態を達成し、既存のDGPおよびDNNベースラインを上回る精度と不確実性の定量化性能を示す一方で、GPUを搭載しない単一のマシン上でも効率的に動作する。
The composition of multiple Gaussian Processes as a Deep Gaussian Process (DGP) enables a deep probabilistic nonparametric approach to flexibly tackle complex machine learning problems with sound quantification of uncertainty. Existing inference approaches for DGP models have limited scalability and are notoriously cumbersome to construct. In this work, we introduce a novel formulation of DGPs based on random feature expansions that we train using stochastic variational inference. This yields a practical learning framework which significantly advances the state-of-the-art in inference for DGPs, and enables accurate quantification of uncertainty. We extensively showcase the scalability and performance of our proposal on several datasets with up to 8 million observations, and various DGP architectures with up to 30 hidden layers.
研究の動機と目的
- 大規模かつ深層的なアーキテクチャにおける深層ガウス過程(DGPs)のスケーラビリティと計算上の非実行性を解決すること。
- 不確実性の定量化と効率的な学習を可能にする実用的で確率的な推論フレームワークをDGPに開発すること。
- 既存のDGP推論手法の制限を克服すること。特に、浅いネットワークに限定され、ミニバッチスケーリングが不十分である点。
- ランダム特徴量拡張が、解釈可能な事前分布と低ランク重み行列を持つベイジアン深層ニューラルネットワークを実現できることを示すこと。
- これまでDGPでは非現実的とされていた数百万件の観測を持つデータセットに対しても、深層確率的モデルの学習を可能にすること。
提案手法
- DGP内のすべてのGP層をランダム特徴量拡張(Rahimi & Recht, 2008)で近似し、共分散関数を明示的な特徴マップに変換する。
- 大規模データセットへのスケーリングを実現するため、ミニバッチ勾配最適化を用いたスケーリングされた変分推論(SVI)を採用する。
- ランダム特徴量を構造的事前分布を持つ潜在変数として扱う確率的定式化を採用し、ベイジアン学習を可能にする。
- TensorFlowにおける自動微分を活用してSVIの勾配を計算し、手動での導出を回避する。
- ランダム特徴量による低ランク重み行列の適用により、解釈可能な事前分布を持つDNNに類似したアーキテクチャを実現する。
- 異なる特徴量拡張により、RBF(三角関数活性化)およびARC-COSINE(ReLUに類似)カーネルの両方をサポートする。
実験結果
リサーチクエスチョン
- RQ1ランダム特徴量拡張は、大規模データセットにおける深層ガウス過程におけるスケーラブルで実行可能な推論を可能にするか?
- RQ2提案されたランダム特徴量付きDGPは、標準的なDNNおよび他のDGP推論手法と比較して、精度と不確実性の定量化において優れているか?
- RQ3このフレームワークは、数百万件の観測を持つデータセットに対して、深層アーキテクチャ(例:30層)にスケーリング可能か?
- RQ4ランダム特徴量と組み合わせたスケーリングされた変分推論は、DGPの確率的性質を保持しながら、効率的な学習を可能にするか?
- RQ5実世界の大規模な回帰および分類タスクにおいて、最先端のGPおよびDNNベースラインと比較して、このモデルはどの程度の性能を示すか?
主な発見
- 提案されたランダム特徴量付きDGPは、MNIST8M(800万件のサンプル)で99.14%のテスト精度を達成し、AutoGP(99.11%)と同等の性能を示し、不確実性の定量化において標準的なDNNを著しく上回った。
- AIRLINEデータセット(500万件のフライト)では、78.1%の精度と0.457のMNLLを達成し、Wilsonら(2016)の最先端GP手法と同等の性能を示した。
- AIRLINEデータセットにおいて最大30層のモデルでも、学習が2時間以内に収束した。これはスケーラビリティと効率性を示している。
- 100個のミニバッチにわたるボックスプロットにより、負の下界がモデル選択の信頼性のある目的関数であることが確認された。
- ドロップアウトを用いて訓練されたDNNと比較して、不確実性指標において優れた性能を示し、より優れた不確実性の定量化を実現した。
- GPUを用いない環境でも競争力のある結果を達成しており、GPUおよび分散コンピューティングをさらに活用してスケーリング可能であるように設計されている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。