QUICK REVIEW

[論文レビュー] Gaussian Process Optimization with Mutual Information

Emile Contal, Vianney Perchet|arXiv (Cornell University)|Nov 19, 2013

Advanced Bandit Algorithms Research参考文献 36被引用数 48

ひとこと要約

本稿では、相互情報量を活用して探索と活用のバランスを改善する、新しいガウス過程最適化アルゴリズムGP-MIを提案する。累積リグレットの上限は$ olimits\mathcal{O}(\sqrt{\log T^{d+1}})$であり、GP-UCBの$ olimits\mathcal{O}(\sqrt{T(\log T)^{d+1}})$に比べて指数的改善を達成する。元の証明に理論的欠陊があるものの、実験結果は、合成的および実世界のタスクにおいてGP-UCBおよび期待改善法を上回ることを確認している。

ABSTRACT

In this paper, we analyze a generic algorithm scheme for sequential global optimization using Gaussian processes. The upper bounds we derive on the cumulative regret for this generic algorithm improve by an exponential factor the previously known bounds for algorithms like GP-UCB. We also introduce the novel Gaussian Process Mutual Information algorithm (GP-MI), which significantly improves further these upper bounds for the cumulative regret. We confirm the efficiency of this algorithm on synthetic and real tasks against the natural competitor, GP-UCB, and also the Expected Improvement heuristic.

研究の動機と目的

逐次的グローバル最適化のための汎用的アルゴリズムフレームワークを、より良い理論的リグレット境界を持つガウス過程を用いて開発すること。
相互情報量を用いてサンプリングを誘導することで、探索と活用のトレードオフを向上させる、新しいアルゴリズムGP-MIを導入すること。
GP-UCB や期待改善法といった既存手法と比較して、累積リグレットのよりタイトな上界を導出すること。
複数の局所最適解を有する困難な合成的および実世界の最適化タスクにおいて、GP-MIの性能を実験的に検証すること。
元の証明における補題1の理論的欠陊を特定し、観測された瞬時のリグレットを観測対象とすることで、ノイズのある観測下でも主定理が成立するように修正すること。

提案手法

GP-MIアルゴリズムは、未知関数と候補観測の間の相互情報量を最大化することで、次のクエリ点を選択する。これにより、情報量の多いサンプリングが促進される。
観測データに基づいた事後平均および分散の更新を用い、獲得関数は$\alpha_{ olimits\text{MI}}(x) = \mathrm{I}(f; y_x \mid \mathbf{Y}_{t-1})$として定義される。ここで$\mathrm{I}$は相互情報量を表す。
理論的分析は、自然なフィルトレーション$\mathcal{F}_t = \{r_1, \dots, r_t\}$を用いた修正されたマルティングル・フレームワークに基づく。ここで$r_t = f(x^*) - f(x_t)$であり、元の証明の欠陊を是正する。
累積リグレットの上限は、ノイズのない関数値$y_t$ではなく、瞬時のリグレット$r_t$を観測することを仮定して導出される。これは理論的保証が成り立つために不可欠である。
計算コストを低減するために、遅延する分散更新を実装し、大規模問題にはEPやMCMCなどの近似手法を適用可能である。
信頼パラメータ$\alpha = \log(2/\delta)$を用いて、探索と活用のトレードオフを制御し、$\delta$に対するロバストネスは実験的に確認されている。

実験結果

リサーチクエスチョン

RQ1関数値と観測値の間の相互情報量を用いて、ベイズ最適化のためのより効率的な獲得関数を設計できるか？
RQ2一般的なGPベースの最適化アルゴリズムの累積リグレットの理論的上界は何か？また、GP-UCBなどの既存手法と比較してどうなるか？
RQ3GP-MIアルゴリズムは、GP-UCBよりも明らかに良いリグレット境界を達成できるか？もしそうなら、その程度はどの程度か？
RQ4GP-MIアルゴリズムは、高次元的でノイズが多く、マルチモーダルな最適化問題において、GP-UCB や期待改善法と比較してどのように性能を発揮するか？
RQ5補題1における理論的欠陊の影響は何か？また、ノイズのある観測値ではなく、瞬時のリグレットを観測することでこれを是正した場合、アルゴリズムの性能と保証にどのような影響が生じるか？

主な発見

GP-MIアルゴリズムは、修正された理論的枠組み下で、累積リグレットの上限が$\mathcal{O}(\sqrt{\log T^{d+1}})$に達し、GP-UCBの$\mathcal{O}(\sqrt{T(\log T)^{d+1}})$に比べて指数的改善を実現する。
元の証明における補題1は、$M_T$が$\mathbf{Y}_T$に関して可測でないため、ノイズのある観測下では無効であり、主定理が破綻する。
理論的保証は、関数値$y_t = f(x_t) + \epsilon_t$ではなく、瞬時のリグレット$r_t = f(x^*) - f(x_t)$を観測することでのみ回復される。
実験結果では、GP-MIが、Himmelblau関数、Mackey-Glass関数、津波の津上り問題など、複数の局所最適解を有する困難なタスクにおいて、GP-UCB や期待改善法を著しく上回ることが示された。
GP-MIアルゴリズムは、高次元入力空間に対してもロバストであり、$d=2$、$d=4$、$d=6$のテストケースにおいて一貫した性能を示した。
信頼パラメータ$\delta$の選択は性能にほとんど影響を及えないことが、$\alpha = \log(2/\delta)$を変化させた実験により示され、強い実験的ロバストネスが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。