QUICK REVIEW

[論文レビュー] Regret bounds for meta Bayesian optimization with an unknown Gaussian process prior

Zi Wang, Beomjoon Kim|arXiv (Cornell University)|Nov 23, 2018

Advanced Bandit Algorithms Research被引用数 24

ひとこと要約

本稿では、オフラインデータから未知のガウス過程事前分布を、経験的ベイズの変種を用いて学習するメタベイズ最適化フレームワークを提案する。これにより、不偏な事後分布推定が可能になる。オフラインデータとオンライン評価が増加するにつれ、レギュレートバウンドはほぼゼロにまで低下し、観測ノイズに比例する定数に収束する。GP-UCBおよびイニシャル確率の獲得関数に対し、理論的保証が得られる。

ABSTRACT

Bayesian optimization usually assumes that a Bayesian prior is given. However, the strong theoretical guarantees in Bayesian optimization are often regrettably compromised in practice because of unknown parameters in the prior. In this paper, we adopt a variant of empirical Bayes and show that, by estimating the Gaussian process prior from offline data sampled from the same prior and constructing unbiased estimators of the posterior, variants of both GP-UCB and probability of improvement achieve a near-zero regret bound, which decreases to a constant proportional to the observational noise as the number of offline data and the number of online evaluations increase. Empirically, we have verified our approach on challenging simulated robotic problems featuring task and motion planning.

研究の動機と目的

ベイズ最適化におけるガウス過程事前分布の未知のハイパーパramータが、実際の理論的保証を損なうという課題に対処すること。
BOにおける「ニワトリとタマゴ」問題を解決すること。すなわち、事前分布の選定がデータに依存し、データ収集が正しい事前分布に依存するというジレンマを解消すること。
同じGP事前分布からのオフラインデータを用いて、事前および事後ハイパーパramータを不偏に推定するメタラーニングフレームワークを構築すること。
有限およびコンact入力空間におけるGP-UCBおよびイニシャル確率の獲得関数に対して、理論的レギュレートバウンドを確立すること。
非定常性や不連続性により標準的事前分布が失敗するロボットタスクおよびモーションプランニング問題において、実験的に有効性を示すこと。

提案手法

オフライントレーニングデータからGP事前分布のハイパーパラメータ（平均および共分散）を推定するために、経験的ベイズの変種を用い、不偏推定量を保証する。
推定された事前分布と観測データを用いて、各ステップにおける事後平均および分散の不偏推定量を構築する。
推定された事後平均および分散を用いて、GP-UCBおよびイニシャル確率の獲得関数を適応させる。この際、データに依存する信頼幅パラメータ ζₜ を導入する。
推定の不確実性を補正するため、スケーリング逆ウィシャート近似を用いて、事後分散推定量に補正因子を導入する。
離散的領域における欠損データを処理するために、行列補完技術を適用し、部分的観測下でも性能を維持する。
PI獲得関数において、真の最大関数値（f*）の既知の上界を用いることで収束性を保証する。

実験結果

リサーチクエスチョン

RQ1GP事前分布のハイパーパラメータが未知であり、オフラインデータから推定しなければならない状況において、ベイズ最適化で理論的レギュレートバウンドを達成できるか？
RQ2不偏推定量を用いた経験的ベイズを用いることで、メタBOにおけるレギュレート性能が向上するか？
RQ3GP-UCBおよびイニシャル確率のレギュレートバウンドは、オフラインデータおよびオンライン評価の増加に伴いどのようにスケーリングされるか？
RQ4本手法は、非定常性や不連続性により標準的事前分布が失敗するロボット最適化タスクにおいて、標準BOを上回る性能を示せるか？
RQ5特に離散的入力空間において、トレーニングデータに欠損がある場合に、本手法はどの程度頑健であるか？

主な発見

提案手法は、オフラインデータおよびオンライン評価が増加するにつれ、観測ノイズ σ² に比例する定数に収束するほぼゼロのレギュレートバウンドを達成する。
ℝᵈ 内の有限およびコンパクトな入力空間において、GP-UCBおよびイニシャル確率のレギュレートバウンドは、トレーニングデータおよびカーネル構造にやや緩い仮定を置くことで、O(σ²) に収束する。
理論的分析により、本手法の枠組み下で、事後平均および分散の推定量が不偏であることが示され、正当なレギュレート解析が可能になる。
ロボットタスクおよびモーションプランニング問題における実験的結果から、本手法はすべてのベースラインを上回る性能を示す。特に、非定常性のため標準的事前分布（例：平方指数カーネル）が失敗する状況でも有効である。
欠損データに対しても本手法は頑健である。トレーニングデータの60％が欠損していても、強力な性能を維持し、PI獲得関数はUCB性能に匹敵する。
GP-UCBにおける信頼幅パラメータ ζₜ は、ウィシャート分布およびデータサイズを含む高確率集中不等式から導出され、理論的妥当性を保証する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。