QUICK REVIEW

[論文レビュー] Budget-Constrained Multi-Armed Bandits with Multiple Plays

Datong P. Zhou, Claire J. Tomlin|arXiv (Cornell University)|Nov 16, 2017

Advanced Bandit Algorithms Research被引用数 18

ひとこと要約

本稿では、総予算Bの制約の下で各ラウンドでK本の腕を選択する予算制約付きのマルチアームバンディット問題に対して、UCB-MBおよびExp3.M.Bアルゴリズムを提案する。ステochasticな状況ではO(NK⁴ log B)のレグレットを確立し、アドバーシャルな状況ではO(√(NB log(N/K)))のレグレットを示し、高確率の境界を伴い、Ω((1−K/N)²√(NB/K))の下界を提示する。これにより、従来の研究を予算制約と複数プレイの両方を含む形に拡張する。

ABSTRACT

We study the multi-armed bandit problem with multiple plays and a budget constraint for both the stochastic and the adversarial setting. At each round, exactly $K$ out of $N$ possible arms have to be played (with $1\leq K \leq N$). In addition to observing the individual rewards for each arm played, the player also learns a vector of costs which has to be covered with an a-priori defined budget $B$. The game ends when the sum of current costs associated with the played arms exceeds the remaining budget. Firstly, we analyze this setting for the stochastic case, for which we assume each arm to have an underlying cost and reward distribution with support $[c_{\min}, 1]$ and $[0, 1]$, respectively. We derive an Upper Confidence Bound (UCB) algorithm which achieves $O(NK^4 \log B)$ regret. Secondly, for the adversarial case in which the entire sequence of rewards and costs is fixed in advance, we derive an upper bound on the regret of order $O(\sqrt{NB\log(N/K)})$ utilizing an extension of the well-known $ exttt{Exp3}$ algorithm. We also provide upper bounds that hold with high probability and a lower bound of order $Ω((1 - K/N)^2 \sqrt{NB/K})$.

研究の動機と目的

マルチアームバンディットの文献におけるギャップを埋めるために、予算制約と各ラウンドでの複数プレイを同時に組み込むこと。
行動にコストが伴い、複数の意思決定を同時に実行するような現実世界のシナリオ（例：オンライン広告やネットワークチャネル選択）をモデル化すること。
これらの制約下で、ステochasticおよびアドバーシャルな設定におけるレグレット境界を導出すること。
アドバーシャルな予算制約付き複数プレイバンディット問題に対して、初めての高確率レグレット上界と一致する下界を提供すること。

提案手法

ステochasticな設定に対して、予算制約下での探索と活用のバランスを保つために信頼区間を用いるUCB-MBを提案。
Exp3を複数プレイおよび予算制約付き設定に適応し、Exp3.P.M.Bを導入。報酬とコストの両方を考慮した重み更新と探索パラメータを組み込み、アドバーシャルな報酬とコストに対処する。
時間的に変化するアドバーシャルなシーケンス下でもレグレット境界を維持できるように、推定報酬とコストを用いた修正された損失推定スキームを導入。
累積レグレットの集中境界を導出するための高確率分析フレームワークを採用し、最悪のシーケンスに対してもロバスト性を確保。
探索を制御するパラメータγと信頼性スケーリングのためのパラメータαを含む、報酬とコストの両方を考慮した重み更新ルールを採用。
対数的重み比のテレスコピングと集中不等式の適用により、ステochasticおよびアドバーシャルの両状況でタイトな境界を導出。

実験結果

リサーチクエスチョン

RQ1固定された予算制約の下で複数プレイが可能なステochasticなマルチアームバンディット設定において、最適なレグレットは何か？
RQ2各ラウンドで複数の腕が選択され、総予算がラウンド数を制限する状況において、アドバーシャル設定でのレグレットはどのようにスケーリングするか？
RQ3予算制約付きマルチアームバンディットに複数プレイを組み合わせた場合、高確率のレグレット境界を確立できるか？
RQ4この問題における根本的な下界は何か？また、N、K、Bにどのように依存するか？
RQ5提案されたアルゴリズムUCB-MBおよびExp3.M.Bは、コストを伴う逐次的意思決定の現実世界への適用を踏まえると、先行研究と比較してレグレットのスケーリングや適用性においてどのように異なるか？

主な発見

提案されたUCB-MBアルゴリズムは、複数プレイと予算制約の下で、ステochasticな状況において期待レグレットO(NK⁴ log B)を達成する。
アドバーシャルな状況では、Exp3.M.Bアルゴリズムが高確率でO(√(NB log(N/K)))のレグレット上界を達成する。
一致する下界Ω((1−K/N)²√(NB/K))が確立され、アドバーシャル状況における上界のタイトさが示された。
Exp3.M.Bの高確率レグレット上界は、重み更新プロセスと推定累積利得に関する新しい集中議論によって導出された。
解析により、レグレットがBおよびNに関して非線形にスケーリングし、Kに多項式的依存があることが確認され、より大きなアクション集合へのスケーラビリティが示された。
従来の研究は、予算制約と複数プレイの両方を同時に扱うのではなく、個別に研究されていたが、本研究では両方を統合した拡張を達成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。