Skip to main content
QUICK REVIEW

[論文レビュー] Analysis of Thompson Sampling for Gaussian Process Optimization in the Bandit Setting

Kinjal Basu, Souvik Ghosh|arXiv (Cornell University)|May 18, 2017
Advanced Bandit Algorithms Research被引用数 2
ひとこと要約

本稿は、関数評価が高価でノイズが多い連続バンディット設定におけるガウス過程最適化のトンプソンサンプリングを分析する。正則性条件下で、選択された点がグローバル最適解に指数関数的に収束することを確立し、収束速度のレジームフリーな分析を提供する。

ABSTRACT

We consider the global optimization of a function over a continuous domain. At every evaluation attempt, we can observe the function at a chosen point in the domain and we reap the reward of the value observed. We assume that drawing these observations are expensive and noisy. We frame it as a continuum-armed bandit problem with a Gaussian Process prior on the function. In this regime, most algorithms have been developed to minimize some form of regret. Contrary to this popular norm, in this paper, we study the convergence of the sequential point $\boldsymbol{x}^t$ to the global optimizer $\boldsymbol{x}^*$ for the Thompson Sampling approach. Under some assumptions and regularity conditions, we show an exponential rate of convergence to the true optimal.

研究の動機と目的

  • レジーム最小化に注力するのではなく、ガウス過程バンディット最適化におけるトンプソンサンプリングの収束行動を研究すること。
  • 連続領域における選択された点の列がグローバル最適化子にどれほど速く近づくかを分析すること。
  • 目的関数の正則性および滑らかさの仮定の下で理論的収束レートを確立すること。
  • 収束速度に注目した、レジームに依存しない最適化性能の分析を提供すること。

提案手法

  • 未知関数にガウス過程事前分布を置くことで、最適化問題を連続腕バンディットとして定式化する。
  • ガウス過程モデルからの事後サンプルに基づいて、逐次的にドメイン内の点を選択するためのトンプソンサンプリングを用いる。
  • 収束を保証するため、リプシッツ連続性や関数の滑らかさといった正則性条件を適用する。
  • 各ノイズ付き観測後にガウス過程事後分布を更新するためのベイズ推論を用いる。
  • 時刻tにおける選択された点がグローバル最適解からある距離以内にある確率を分析する。
  • ガウス過程事後分散の性質とサンプリングメカニズムを用いて、収束レートの理論的バウンドを導出する。

実験結果

リサーチクエスチョン

  • RQ1連続的でノイズがあり、関数評価が高価な設定において、トンプソンサンプリングはどの程度速くグローバル最適化子に収束するか?
  • RQ2レジーム最小化を主な性能指標として用いずに収束を確立できるか?
  • RQ3指数的収束を保証するために、関数およびカーネルに必要な正則性条件は何か?
  • RQ4ガウス過程モデルの事後分散は、選択された点の収束レートにどのように影響するか?

主な発見

  • やや正則性の条件下で、トンプソンサンプリングはグローバル最適化子に指数的収束を達成する。
  • 収束レートはレジーム最小化の目的関数に依存せず、最適化性能の新たな理論的視点を提供する。
  • 選択された点が固定距離内にグローバル最適解がある確率は、反復回数が増えるにつれて指数的に減少する。
  • 分析はガウス過程事後分散の減少と、効率的な探索が可能なサンプリングメカニズムに依存している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。