QUICK REVIEW

[論文レビュー] Portfolio Allocation for Bayesian Optimization

Eric Brochu, Matthew W. Hoffman|arXiv (Cornell University)|Sep 28, 2010

Advanced Bandit Algorithms Research参考文献 26被引用数 91

ひとこと要約

本稿では、オンラインマルチアームバンディット戦略を用いて複数の獲得関数の間で適応的に選択を行う、ポートフォリオベースのベイズ最適化手法GP-Hedgeを提案する。期待改善（Expected Improvement）や上側信頼区間（Upper Confidence Bound）のような探索・活用戦略を動的に割り当てることで、GP-Hedgeは単一の獲得関数よりも優れた性能を達成する。また、理論的レグレットバウンドを提供し、GP-UCBの収束特性と関連づけることで、反復回数が増加するにつれて最終的に収束することが示唆される。

ABSTRACT

Bayesian optimization with Gaussian processes has become an increasingly popular tool in the machine learning community. It is efficient and can be used when very little is known about the objective function, making it popular in expensive black-box optimization scenarios. It uses Bayesian methods to sample the objective efficiently using an acquisition function which incorporates the model's estimate of the objective and the uncertainty at any given point. However, there are several different parameterized acquisition functions in the literature, and it is often unclear which one to use. Instead of using a single acquisition function, we adopt a portfolio of acquisition functions governed by an online multi-armed bandit strategy. We propose several portfolio strategies, the best of which we call GP-Hedge, and show that this method outperforms the best individual acquisition function. We also provide a theoretical bound on the algorithm's performance.

研究の動機と目的

ベイズ最適化における最適な獲得関数の選択という課題に取り組む。これは、あらゆる目的関数に対して優れた性能を発揮する単一の獲得関数が存在しないことによる。
性能に応じて動的に適応するポートフォリオを組み合わせることで、複数の獲得関数を統合し、最適化の効率を向上させる。
累積レグレットバウンドを提供する理論的根拠に基づく手法を開発し、個々の獲得関数の有効性にばらつきがあっても、性能保証を可能にする。
実世界および合成的な最適化タスクにおいて、適応的ヘッジ戦略が静的獲得関数を一貫して上回るかどうかを評価する。

提案手法

本手法は階層的ヘッジ戦略を採用し、獲得関数の選択を、観測された関数改善に基づく報酬を持つマルチアームバンディット問題としてモデル化する。
期待改善（EI）、利益確率（PI）、およびGP-UCBを含む獲得関数のポートフォリオを維持し、過去のパフォーマンスに応じて重みをオンライン学習で更新する。
コアアルゴリズムであるGP-Hedgeは、重み付き組み合わせの獲得関数を用い、高いパフォーマンスを示す戦略を優遇する指数的重み付けスキームで重みを更新する。
情報量の増加とカーネルハイパーパrameterに関する仮定の下で、累積レグレットをGP-UCBの既知の収束特性に関連づける理論的レグレットバウンドを導入する。
目的関数をモデル化するためにガウス過程事前分布を用い、二乗指数カーネルと自動関連性決定（ARD）を採用し、ハイパーパrameterはデータから推定する。
ノイズのある関数評価と逐次的サンプリングを想定し、標準ベンチマーク関数および実世界の強化学習タスクでアルゴリズムを評価する。

実験結果

リサーチクエスチョン

RQ1オンライン学習により動的に選択される獲得関数のポートフォリオは、ベイズ最適化において、個々の獲得関数を上回る性能を発揮できるか？
RQ2滑らかさや構造が異なる多様な目的関数において、ヘッジ戦略のパフォーマンスは個々の獲得関数と比べてどのように異なるか？
RQ3ポートフォリオベースのベイズ最適化手法における累積レグレットにどのような理論的保証を提供できるか？
RQ4ポートフォリオにGP-UCBを組み込むことで、非定常的または高次元な設定において収束性とロバストネスが向上するか？

主な発見

GP-Hedgeは、平坦な領域や非定常的挙動を示す関数においてPIが苦戦する標準ベンチマーク関数においても、すべての個別獲得関数を上回る性能を達成した。
実験結果では、合成的および実世界のタスクにおいて、単一の獲得関数よりも累積レグレットが低く抑えられ、一貫した性能向上が確認された。
すべての獲得関数報酬を観測できるフルインフォーメーションヘッジ戦略は、ほとんどの場合、部分情報バージョンを上回った。特に、獲得関数が矛盾する信号を提供する状況で顕著であった。
理論的レグレットバウンドにより、GP-Hedgeの性能がGP-UCBの収束特性と関連していることが示された。非線形レグレット項が存在し、反復回数が増加するにつれて最終的に収束することが示唆された。
初期の獲得関数選択が不適切であっても、適応的ポートフォリオメカニズムにより、時間の経過とともに劣化選択を是正できることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。