QUICK REVIEW

[論文レビュー] Thompson Sampling for Budgeted Multi-armed Bandits

Yingce Xia, Haifang Li|arXiv (Cornell University)|May 1, 2015

Advanced Bandit Algorithms Research参考文献 27被引用数 31

ひとこと要約

本稿は、各腕の選択に確率的コストが伴い、合計コストが予算Bで制約される予算付きマルチアームバンディット問題に対するトマソンサンプリングアルゴリズムを提案する。各腕について報酬とコストの事後分布をサンプリングし、その比率が最大となる腕を選択する。分布依存のレグレットバウンドO(ln B)を達成しており、既存の手法よりもタイトである。

ABSTRACT

Thompson sampling is one of the earliest randomized algorithms for multi-armed bandits (MAB). In this paper, we extend the Thompson sampling to Budgeted MAB, where there is random cost for pulling an arm and the total cost is constrained by a budget. We start with the case of Bernoulli bandits, in which the random rewards (costs) of an arm are independently sampled from a Bernoulli distribution. To implement the Thompson sampling algorithm in this case, at each round, we sample two numbers from the posterior distributions of the reward and cost for each arm, obtain their ratio, select the arm with the maximum ratio, and then update the posterior distributions. We prove that the distribution-dependent regret bound of this algorithm is $O(\ln B)$, where $B$ denotes the budget. By introducing a Bernoulli trial, we further extend this algorithm to the setting that the rewards (costs) are drawn from general distributions, and prove that its regret bound remains almost the same. Our simulation results demonstrate the effectiveness of the proposed algorithm.

研究の動機と目的

確率的報酬とコストを伴う予算付きマルチアームバンディットにトマソンサンプリングを適用する際のギャップを埋める。
確定的コストを仮定するか、最小コストの知識を必要とする既存のアルゴリズムの制限を克服する。
予算制約下での確率的報酬とコストの設定に対してスケーラブルで理論的根拠を持つアルゴリズムを設計する。
特に分布依存設定において、既存手法よりもタイトなレグレットバウンドを達成する。

提案手法

各腕の期待報酬とコストのモデリングに、共役事前分布としてベータ分布を用いる。
各ラウンドにおいて、各腕の事後分布から報酬とコストをサンプリングし、その比率を計算し、最大の比率を持つ腕を選択する。
観測された報酬とコストの結果に基づき、選択された腕の事後分布を更新する。
比のサンプリングプロセスを近似するためにベルヌーイ試行を用いて、一般の報酬およびコスト分布への拡張を図る。
集中不等式と中間事象を活用して、非最適腕の期待選択回数をバウンドする。
非最適腕と最適腕のδ-比とε-比のギャップを分析することで、レグレットがO(ln B)であることを証明する。

実験結果

リサーチクエスチョン

RQ1確率的コストと報酬を伴う予算付きマルチアームバンディット設定に、トマソンサンプリングを効果的に適応できるか？
RQ2提案されたトマソンサンプリングの変種は、予算付きMAB設定においてどの程度の理論的レグレット性能を示すか？
RQ3提案されたアルゴリズムのレグレットバウンドは、UCB-BV1/BV2やε-firstといった既存のアルゴリズムと比較してどうなるか？
RQ4ベルヌーイ分布を超える一般の報酬およびコスト分布へ、このアルゴリズムを拡張できるか？
RQ5特に分布依存設定において、先行研究よりもタイトなレグレット定数を達成できるか？

主な発見

提案されたトマソンサンプリングアルゴリズムは、分布依存のレグレットバウンドO(ln B)を達成しており、対数的要因を除いて最適である。
理論的比較により、UCB-BV1およびUCB-BV2のそれよりもO(ln B)バウンドにおけるレグレット定数が厳密に小さいことが示された。
シミュレーション結果により、実用的にも優れた性能を維持していることが実証された。
理論的分析は、δ-比とε-比のギャップを定義し、集中不等式を用いて非最適腕の選択回数を制御することに依存している。
ベルヌーイ試行による一般分布への拡張は、O(ln B)のレグレットバウンドを最小限の性能損失で維持する。
UCB-BV1/BV2とは異なり、最小期待コストの事前知識を必要としないため、実世界の設定への適用可能性が向上する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。