QUICK REVIEW

[論文レビュー] On Kernelized Multi-armed Bandits

Sayak Ray Chowdhury, Aditya Gopalan|arXiv (Cornell University)|Apr 3, 2017

Advanced Bandit Algorithms Research参考文献 24被引用数 23

ひとこと要約

本稿では、無限次元マルティンゲールに対する自己正規化濃縮不等式を活用することで、より良いレグレットバウンドを達成する、連続腕確率的バンディット問題のためのガウス過程ベースの新規アルゴリズム IGP-UCB と GP-Thompson Sampling (GP-TS) を提案する。主な貢献は、GP-UCB よりも順序的に優れたレグレット性能を達成し、RKHS 構造を有する非パラメトリックバンディットにおける Thompson サンプリングのための最初の既知のレグレットバウンドを確立することにある。

ABSTRACT

We consider the stochastic bandit problem with a continuous set of arms, with the expected reward function over the arms assumed to be fixed but unknown. We provide two new Gaussian process-based algorithms for continuous bandit optimization-Improved GP-UCB (IGP-UCB) and GP-Thomson sampling (GP-TS), and derive corresponding regret bounds. Specifically, the bounds hold when the expected reward function belongs to the reproducing kernel Hilbert space (RKHS) that naturally corresponds to a Gaussian process kernel used as input by the algorithms. Along the way, we derive a new self-normalized concentration inequality for vector- valued martingales of arbitrary, possibly infinite, dimension. Finally, experimental evaluation and comparisons to existing algorithms on synthetic and real-world environments are carried out that highlight the favorable gains of the proposed strategies in many cases.

研究の動機と目的

未知の報酬関数を有する連続腕集合における逐次最適化の課題に対処すること。
信頼区間と探索戦略の精緻化を通じて、核化多腕バンディットにおけるレグレット性能の向上を図ること。
RKHS 構造を有する連続バンディットに特化した非パラメトリック Thompson サンプリングの変種を開発すること。
無限次元ベクトル値マルティンゲールに対する新しい自己正規化濃縮不等式を確立すること。
合成的および実世界の設定において、既存の GP ベースの手法と比較して提案手法の実験的妥当性を検証すること。

提案手法

後方分散の精密な更新を用いて信頼区間の幅を著しく縮小した GP-UCB の変種として IGP-UCB を提案する。
有限次元の結果を一般化する無限次元ベクトル値マルティンゲールに対する新しい自己正規化濃縮不等式を導出する。
RKHS 構造を有する連続バンディットに特化した非パラメトリック Thompson サンプリングアルゴリズムである GP-Thompson Sampling (GP-TS) を導入する。
未知の報酬関数をモデル化するために既知のカーネルを用いたガウス過程事前分布を採用し、逐次的に信念を更新する。
行列の逆行列補題を用いた再帰的更新則を採用することで、計算効率を維持する。
IGP-UCB では上位信頼区間に基づく腕選択を行い、GP-TS ではガウス過程後方分布に基づく後方サンプリングを用いる。両者とも後方分布に依存した意思決定を行う。

実験結果

リサーチクエスチョン

RQ1GP-UCB の信頼区間幅を縮小することで、連続腕バンディットにおける証明可能なより良いレグレットバウンドを達成できるか？
RQ2RKHS 構造を有する報酬関数を有する非パラメトリックでアグノスティックな設定において、Thompson サンプリングのレグレットバウンドを導出可能か？
RQ3核化バンディットにおける無限次元の後方不確実性を分析するために必要な新たな濃縮不等式は何か？
RQ4提案手法は、合成的および実世界の環境において、既存の GP ベースのバンディット手法と比較して、レグレットとロバストネスの観点で優れているか？
RQ5モデルの誤指定が IGP-UCB および GP-TS の性能に与える影響は何か？

主な発見

IGP-UCB は、精密な解析による信頼区間幅の縮小を通じて、GP-UCB よりも順序的に優れたレグレット性能を達成する。
GP-Thompson Sampling は Õ(γ_T√(dT)) のレグレットバウンドを達成し、アグノスティックな非パラメトリックバンディット設定における Thompson サンプリングのための最初のこのようなバウンドである。
無限次元マルティンゲールに対する提案された自己正規化濃縮不等式は、レグレットバウンドの導出に不可欠であり、より広範な理論的応用可能性を有する可能性を示している。
実験的評価では、合成的および実世界の環境において、IGP-UCB および GP-TS が既存の GP ベースのアルゴリズムを累積レグレットの観点で上回ることが示された。
モデルの誤指定に対しても安定した性能を示すため、理想化された仮定に依存しない実用的妥当性が示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。