QUICK REVIEW

[論文レビュー] On Upper-Confidence Bound Policies for Non-Stationary Bandit Problems

Aurélien Garivier, Éric Moulines|ArXiv.org|May 22, 2008

Advanced Bandit Algorithms Research参考文献 18被引用数 180

ひとこと要約

本稿では、報酬分布の急激な変化を伴う非定常的マルチアームバンディット問題に対して、割引型UCBおよびスライディングウィンドウ型UCBの2つのUpper-Confidence Bound（UCB）アルゴリズムを提案し、その分析を行う。両アルゴリズムが情報理論的下界まで対数的要因の差で達成可能であることを確立し、非定常環境下でのほぼ最適性を示している。

ABSTRACT

Multi-armed bandit problems are considered as a paradigm of the trade-off between exploring the environment to find profitable actions and exploiting what is already known. In the stationary case, the distributions of the rewards do not change in time, Upper-Confidence Bound (UCB) policies have been shown to be rate optimal. A challenging variant of the MABP is the non-stationary bandit problem where the gambler must decide which arm to play while facing the possibility of a changing environment. In this paper, we consider the situation where the distributions of rewards remain constant over epochs and change at unknown time instants. We analyze two algorithms: the discounted UCB and the sliding-window UCB. We establish for these two algorithms an upper-bound for the expected regret by upper-bounding the expectation of the number of times a suboptimal arm is played. For that purpose, we derive a Hoeffding type inequality for self normalized deviations with a random number of summands. We establish a lower-bound for the regret in presence of abrupt changes in the arms reward distributions. We show that the discounted UCB and the sliding-window UCB both match the lower-bound up to a logarithmic factor.

研究の動機と目的

報酬分布が未知の時刻に急激に変化する非定常的環境におけるマルチアームバンディット問題の課題に対処すること。
最適なアームの変化を追跡できないため、定常的UCB方策の限界を克服すること。
報酬分布の変化を追跡できる2つの適応的UCBアルゴリズム—割引型UCBおよびスライディングウィンドウ型UCB—の開発と分析を行うこと。
これらのアルゴリズムの理論的レグレットバウンドを確立し、非定常バンディット問題に対する導出された下界と比較すること。
プロセスの履歴に依存するランダムな和項数を伴う自己正規化偏差に対する、新しいHoeffding型不等式を提供し、分析を支援すること。

提案手法

過去の報酬に指数的に減少する重みを割り当て、最近の観測値に高い重要性を与える割引型UCBアルゴリズムを提案する。
最近の観測値を固定サイズのウィンドウで保持し、ウィンドウサイズを超過するデータは無視するスライディングウィンドウ型UCBアルゴリズムを導入する。
和項数がプロセス履歴に依存するランダムな場合の自己正規化偏差に対する、新しいHoeffding型不等式を導出する。
この不等式を用いて、非最適アームが引かれる回数の期待値の上界を導出し、これが直接的にレグレットを制御することを示す。
集中不等式およびマルティングルールのアプローチを用いて、非定常性下でのUCBインデックスの挙動を分析する。
急激な変化を伴う非定常設定における任意の方策のレグレットに対する下界を確立し、最適性のベンチマークを提供する。

実験結果

リサーチクエスチョン

RQ1UCBスタイルのアルゴリズムは、非定常バンディット問題における報酬分布の変化を追跡するために適応可能か？
RQ2報酬分布が急激に変化する状況下で、割引型UCBおよびスライディングウィンドウ型UCBアルゴリズムのレグレット性能はいかがなものか？
RQ3未知の変化点を伴う非定常バンディット問題におけるレグレットの根本的限界（下界）は何か？
RQ4UCBの分析を、ランダムな和項数を伴う自己正規化偏差に対しても拡張可能か？
RQ5提案されたアルゴリズムは、情報理論的下界に漸近的に近いレグレットを達成するか？

主な発見

割引型UCBおよびスライディングウィンドウ型UCBの両方のアルゴリズムが、導出された下界まで対数的要因の差で達成可能であることを示し、ほぼ最適性を裏付けた。
本稿では、両アルゴリズムの期待レグレットに対する非漸近的上界を確立し、環境の変化に効果的に適応できることを示した。
プロセス履歴に依存するランダムな和項数を伴う自己正規化偏差に対する、新しいHoeffding型不等式を導出し、主要な技術的ツールとして用いた。
分析により、非最適アームの引かれる回数がきびしく制御されていることが示され、これが直接的にレグレットバウンドに繋がった。
急激な変化を伴う非定常設定におけるレグレットの下界を確立し、Tの対数的要因の差まで、いかなる方策もより良いレグレット成長を達成できないことを示した。
提案されたアルゴリズムは、非定常環境下で標準的な定常的UCB方策を上回る性能を示した。後者は最適アームの変化を追跡できないため、劣っている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。