[論文レビュー] Thompson Sampling for Combinatorial Semi-Bandits
本稿では、独立した腕の分布を仮定する確率的組合せ的マルチアームバンディット(CMAB)およびマトロイドバンディットに対して、ベイジアンサンプリングと新しい解析技術を活用することで、より良いレグレットバウンドを達成する組合せ的トーマプソンサンプリング(CTS)を提案する。分布依存のレグレットバウンド $O(m\log K_{\max}\log T/\Delta_{\min})$ を確立し、UCBに基づく先行研究を上回り、マトロイド設定では理論的下界と一致する。
In this paper, we study the application of the Thompson sampling (TS) methodology to the stochastic combinatorial multi-armed bandit (CMAB) framework. We first analyze the standard TS algorithm for the general CMAB model when the outcome distributions of all the base arms are independent, and obtain a distribution-dependent regret bound of $O(m\log K_{\max}\log T / Δ_{\min})$, where $m$ is the number of base arms, $K_{\max}$ is the size of the largest super arm, $T$ is the time horizon, and $Δ_{\min}$ is the minimum gap between the expected reward of the optimal solution and any non-optimal solution. This regret upper bound is better than the $O(m(\log K_{\max})^2\log T / Δ_{\min})$ bound in prior works. Moreover, our novel analysis techniques can help to tighten the regret bounds of other existing UCB-based policies (e.g., ESCB), as we improve the method of counting the cumulative regret. Then we consider the matroid bandit setting (a special class of CMAB model), where we could remove the independence assumption across arms and achieve a regret upper bound that matches the lower bound. Except for the regret upper bounds, we also point out that one cannot directly replace the exact offline oracle (which takes the parameters of an offline problem instance as input and outputs the exact best action under this instance) with an approximation oracle in TS algorithm for even the classical MAB problem. Finally, we use some experiments to show the comparison between regrets of TS and other existing algorithms, the experimental results show that TS outperforms existing baselines.
研究の動機と目的
- 独立した腕の分布を仮定する一般化された組合せ的マルチアームバンディット(CMAB)フレームワークにおけるトーマプソンサンプリングの開発と解析。
- ESCB や CUCB などの既存のUCBベースのポリシーと比較して、CTS のよりタイトなレグレットバウンドの確立。
- マトロイドバンディット設定への解析の拡張。ここで CTS は情報理論的下界と一致するレグレットバウンドを達成する。
- トーマプソンサンプリングにおいて、正確なオフラインオラクルを近似オラクルに置き換えることの限界の調査。
- CMAB およびマトロイドバンディット問題における最先端のアルゴリズムと比較して、CTS の実験的妥当性の検証。
提案手法
- 各腕の後方分布からパラメータをサンプリングし、そのサンプルに基づいてスーパーアームを選択することで、CMAB にトーマプソンサンプリングを適用する。
- 各観測後にベイズの定理を用いて後方分布を更新するベイジアンアップデートを実装する。
- 累積レグレットのカウントを改善する新しいレグレット解析技術を導入し、よりタイトなバウンドを達成する。
- 独立した腕の分布に対して、$O(m\log K_{\max}\log T/\Delta_{\min})$ のレグレット上界を確立する。
- 独立性の仮定を除去することでマトロイドバンディットに解析を拡張し、下界と一致するレグレットバウンドを達成する。
- 近似オラクルを正確なオフラインオラクルの代わりに直接使用できないことを示す。これは古典的MABにおいても同様である。
実験結果
リサーチクエスチョン
- RQ1一般化されたCMABモデルにおいて、UCBベースのポリシーと比較して、トーマプソンサンプリングはよりタイトなレグレットバウンドを達成できるか?
- RQ2一般CMABおよびマトロイドバンディット設定において、CTS のレグレット性能は CUCB、C-KL-UCB、ESCB と比較してどの程度か?
- RQ3マトロイドバンディット設定におけるCTS の理論的レグレットバウンドは何か? また、情報理論的下界と一致するか?
- RQ4なぜ、近似オラクルの使用が、古典的MABですらトーマプソンサンプリングで失敗するのか?
- RQ5提案された解析技術は、他のUCBベースのポリシーのレグレットバウンドを改善するために一般化可能か?
主な発見
- 提案されたCTSアルゴリズムは、分布依存のレグレットバウンド $O(m\log K_{\max}\log T/\Delta_{\min})$ を達成し、以前の $O(m(\log K_{\max})^2\log T/\Delta_{\min})$ のバウンドよりもタイトである。
- 新しいレグレット解析技術により累積レグレットのカウントが改善され、よりタイトなバウンドが得られ、ESCB などの他のUCBベースのポリシーにも適用可能である。
- マトロイドバンディット設定では、腕の間の独立性の仮定をなくしても、CTS は情報理論的下界と一致するレグレットバウンドを達成する。
- 最大スパニングツリーおよび最短経路問題における実験では、CTS は累積レグレットの観点で CUCB、C-KL-UCB、ESCB を一貫して上回る。
- 理論的保証のないパrameter(例:C-KL-UCB-m)を用いても、CTS は依然としてこれらのベースラインを上回り、$T$ が増加するにつれてその優位性が顕著になる。
- 研究により、近似オラクルを正確なオフラインオラクルの代わりにトーマプソンサンプリングで使用することは、古典的MABにおいても、根本的なベイジアン推論の制約により不可能であることが確認された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。