Skip to main content
QUICK REVIEW

[論文レビュー] Active Learning of Linear Embeddings for Gaussian Processes

Roman Garnett, Michael A. Osborne|arXiv (Cornell University)|Oct 24, 2013
Gaussian Processes and Bayesian Inference参考文献 29被引用数 30
ひとこと要約

本稿では、高次元空間におけるガウス過程回帰と同時に低次元線形埋め込みを発見するためのアクティブラーニング手法を提案する。埋め込みの不確実性をラプラシアン近似で扱い、GPハイパーパrameterの新たな近似周辺化を組み合わせることで、合成および実世界のデータセット(最大318次元)において、予測性能に優れ、データ効率的で頑健な学習を達成した。

ABSTRACT

We propose an active learning method for discovering low-dimensional structure in high-dimensional Gaussian process (GP) tasks. Such problems are increasingly frequent and important, but have hitherto presented severe practical difficulties. We further introduce a novel technique for approximately marginalizing GP hyperparameters, yielding marginal predictions robust to hyperparameter mis-specification. Our method offers an efficient means of performing GP regression, quadrature, or Bayesian optimization in high-dimensional spaces.

研究の動機と目的

  • 標準的手法が計算不能になる高次元入力空間におけるガウス過程回帰の課題に対処すること。
  • 関数とその背後にある低次元線形埋め込みを同時に学習するアクティブラーニングフレームワークの開発。
  • GPハイパーパrameterの近似周辺化により、ハイパーパrameterの誤設定に対する頑健性を向上させること。
  • 関連する低次元構造を発見することで、高次元タスクにおける効率的なベイズ最適化、回帰、数値積分を可能にすること。
  • 埋め込みと関数の両方の不確実性を同時に低減する情報を得る評価点を特定するスケーラブルで原理的根拠のある手法の提供。

提案手法

  • 線形埋め込み行列 R の事後分布をラプラシアン近似で推定し、埋め込みの不確実性を定量化する。
  • GPハイパーパrameter(R を含む)に対する新たな近似周辺化技術を導入し、ハイパーパrameterの誤設定に対しても頑健な予測を実現する。
  • 埋め込み R に関する不確実性の低減を最大にするアクティブ選択戦略を採用し、効用最適化を用いる。
  • R の近似事後分布と周辺化されたGP事後分布を組み合わせ、情報量の多い入力点 x* の選択を支援する。
  • 各イテレーションで R の対数事後分布のモードを特定するために、複数回のリスタートを伴う L-BFGS 最適化を適用する。
  • 埋め込み発見プロセスへのバイアスを回避するため、R に対して非情報的で広がりのある事前分布(i.i.d. なゼロ平均ガウス分布)を用いる。

実験結果

リサーチクエスチョン

  • RQ1アクティブラーニングは、高次元入力空間における低次元線形埋め込みの同時発見とガウス過程回帰に効果的に拡張可能か?
  • RQ2埋め込みとカーネルパラメータのパラメータ誤設定に対して頑健性を高めるために、GPモデルにおけるハイパーパラメータの周辺化をどのように近似できるか?
  • RQ3埋め込みの不確実性に基づくアクティブ選択は、高次元タスクにおいて、被動的またはランダムサンプリングと比較して収束が速く、より優れた予測性能を示すか?
  • RQ4提案手法は、正確性と不確実性のキャリブレーションを維持したまま、実世界の高次元問題にスケーラブルに適用可能か?
  • RQ5予測精度とデータ効率性の観点から、Lasso や Dantzig セレクタのような被動的手法と比較して、アクティブ埋め込み発見手法の性能はどのように異なるか?

主な発見

  • 提案手法は、合成データ、Branin、コミュニティと犯罪、CTスライスといった実世界の問題を含む、テストされたすべてのデータセットにおいて、RMSE と負の対数尤度の両方で最低水準を達成した(1つを除く)。
  • 20次元/3次元の合成問題では、RMSE が 0.617、対数尤度が 0.888 に達し、すべてのベースラインを上回った。
  • 106次元の温度データセットでは、RMSE が 0.328、対数尤度が 0.318 に達し、競合手法を著しく上回った。
  • 318次元のCTスライスデータセットでは、RMSE が 0.767、対数尤度が 1.16 に達し、高次元実世界データへのスケーラビリティを示した。
  • すべてのベンチマークにおいて、予測精度と不確実性キャリブレーションの観点で、不確実性ベース(UCB)およびBALDベースのアクティブラーニングベースラインを一貫して上回った。
  • 近似周辺化技術により、ハイパーパラメータの誤設定に対する頑健性が顕著に向上し、異なるハイパーパラメータ設定でも安定した性能が得られた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。