QUICK REVIEW

[論文レビュー] Batched Gaussian Process Bandit Optimization via Determinantal Point Processes

Tarun Kathuria, Amit Deshpande|arXiv (Cornell University)|Nov 13, 2016

Advanced Bandit Algorithms Research参考文献 18被引用数 39

ひとこと要約

本稿では、並列評価に適した多様で情報量の多いパrameterセットを選択するため、決定性ポイントプロセス（DPPs）を用いた新しいバッチ版ベイズ最適化手法を提案する。GPの事後分散共分散行列からDPPカーネルを学習することで、DPP-MAX（貪欲法）またはDPP-SAMPLE（確率的）による効率的なバッチ選択が可能となり、特に大きなバッチサイズにおいて、先行手法よりも期待される後悔が低くなる。

ABSTRACT

Gaussian Process bandit optimization has emerged as a powerful tool for optimizing noisy black box functions. One example in machine learning is hyper-parameter optimization where each evaluation of the target function requires training a model which may involve days or even weeks of computation. Most methods for this so-called "Bayesian optimization" only allow sequential exploration of the parameter space. However, it is often desirable to propose batches or sets of parameter values to explore simultaneously, especially when there are large parallel processing facilities at our disposal. Batch methods require modeling the interaction between the different evaluations in the batch, which can be expensive in complex scenarios. In this paper, we propose a new approach for parallelizing Bayesian optimization by modeling the diversity of a batch via Determinantal point processes (DPPs) whose kernels are learned automatically. This allows us to generalize a previous result as well as prove better regret bounds based on DPP sampling. Our experiments on a variety of synthetic and real-world robotics and hyper-parameter optimization tasks indicate that our DPP-based methods, especially those based on DPP sampling, outperform state-of-the-art methods.

研究の動機と目的

高価なブラックボックス関数の評価を並列化する課題に対処し、逐次評価では遅すぎる問題を解決すること。
原理的でない多様性モデリングや高い計算コストを伴う既存のバッチ版ベイズ最適化手法の限界を克服すること。
観測データから自動的にDPPカーネルを学習するフレームワークを構築し、バッチ内の探索と活用のバランスをとること。
DPP-MAXおよびDPP-SAMPLEの両変種について、理論的後悔バウンドを導出する。これは先行研究を改善する。
実験的に、DPP-SAMPLEが実世界および合成最適化タスクにおいて、最先端のベースラインを上回ることを示す。特に大きなバッチサイズで顕著な優位性を示す。

提案手法

多様性を促進する行列式カーネルを用いる決定性ポイントプロセス（DPPs）を用いてバッチの多様性をモデル化する。
ガウス過程の事後分散共分散行列をDPPカーネルとして使用し、データ駆動型かつ適応的な多様性モデリングを可能にする。
固定サイズの最高行列式部分集合を探索するための貪欲選択によりDPP-MAXを実装し、多様性と高い期待報酬を両立させる。
DPP分布から部分集合を確率的に抽出することでDPP-SAMPLEを実装し、不確実性を導入し、貪欲選択による過剰適合を軽減する。
UCBやESTなどの獲得関数とDPPベースのバッチ選択を統合し、最初の点はUCB/ESTで選択し、残りの点はDPPで選択する。
DPP-MAXおよびDPP-SAMPLEの両者について後悔バウンドを導出し、サンプリング手法が最大化手法よりも期待される後悔が低いことを示す。

実験結果

リサーチクエスチョン

RQ1DPPは、バッチ版ベイズ最適化における多様性を効果的にモデル化でき、より高いサンプル効率をもたらすか？
RQ2GPの事後分散共分散からDPPカーネルを学習することで、固定またはヒューリスティックなカーネルと比較して、一般化性能が向上し、後悔が低減するか？
RQ3DPP分布からサンプリングするDPP-SAMPLEは、貪欲選択を用いるDPP-MAXよりも期待される後悔が低くなると予想されるか？
RQ4提案手法であるDPPベースの手法は、BUCB、UCB-PE、LP-UCBといった既存のバッチ版ベイズ最適化アルゴリズムと比較して、収束速度および最終的性能において優れているか？
RQ5特に広く使われるRBFカーネルに対して、DPPベース手法の理論的後悔バウンドを導出し、改善できるか？

主な発見

DPP-SAMPLEは、合成的および実世界のタスクにおいて、DPP-MAXおよび他のベースラインを一貫して上回り、特に大きなバッチサイズ（例：B=10）で顕著な優位性を示す。
Bibtexデータセットに対するFastXMLハイパーパramータチューニングタスクでは、DPP-SAMPLEは最良のベースライン（LP-UCB）と同等の性能を達成し、DPP-MAXおよびバッチ版手法を著しく上回る。
ロボット制御タスクでは、B=10のときDPP-SAMPLEがDPP-MAXに対して顕著な性能差を示し、大きなバッチサイズにおける確率的サンプリングの利点を裏付けている。
DPP-MAXに貪欲選択ルールを適用した場合、DPPベースのフレームワークはUCB-PEを正確に再現する。これは理論的整合性の妥当性を裏付ける。
本稿では、RBFカーネルの情報量ゲインについて簡略化された証明を提供し、既知のバウンドO((log T)^{d+1})をO((log T)^d)に改善した。これは理論的保証を強化する。
実験結果から、DPP-SAMPLEはAbaloneおよびDeliciousデータセットを含む複数のベンチマークで、LP-UCBや他の最先端手法と同等またはそれを上回る性能を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。