QUICK REVIEW

[論文レビュー] Efficient Learning in Large-Scale Combinatorial Semi-Bandits

Zheng Wen, Branislav Kveton|arXiv (Cornell University)|Jun 28, 2014

Advanced Bandit Algorithms Research参考文献 33被引用数 48

ひとこと要約

本稿では、線形一般化を用いた大規模な組合せ的セミバンディット問題に対する効率的なアルゴリズムとして、組合せ的線形トマソンサンプリング（CombLinTS）と組合せ的線形UCB（CombLinUCB）を提案する。アイテムの特徴量に基づく線形モデルを活用することで、両アルゴリズムは時間にほぼ線形に依存する$L$-独立のレギュレートバウンドを達成し、数千から数百万個のアイテムを含む問題においてスケーラブルかつ統計的に効率的な学習を可能にする。

ABSTRACT

A stochastic combinatorial semi-bandit is an online learning problem where at each step a learning agent chooses a subset of ground items subject to combinatorial constraints, and then observes stochastic weights of these items and receives their sum as a payoff. In this paper, we consider efficient learning in large-scale combinatorial semi-bandits with linear generalization, and as a solution, propose two learning algorithms called Combinatorial Linear Thompson Sampling (CombLinTS) and Combinatorial Linear UCB (CombLinUCB). Both algorithms are computationally efficient as long as the offline version of the combinatorial problem can be solved efficiently. We establish that CombLinTS and CombLinUCB are also provably statistically efficient under reasonable assumptions, by developing regret bounds that are independent of the problem scale (number of items) and sublinear in time. We also evaluate CombLinTS on a variety of problems with thousands of items. Our experiment results demonstrate that CombLinTS is scalable, robust to the choice of algorithm parameters, and significantly outperforms the best of our baselines.

研究の動機と目的

アイテム数$L$が処理不能に大きい大規模な設定において、従来の組合せバンディットアルゴリズムの非効率性を解消すること。
標準的な組合せ的セミバンディットアルゴリズムに内在する$\Omega(\sqrt{L})$のレギュレート依存性を、アイテム特徴量の線形構造を活用することで克服すること。
オンライン広告やネットワークルーティングなどの現実世界の問題にスケーラブルに適用可能な、計算的に効率的なアルゴリズムの開発。
合理的な仮定の下で、$L$に依存しない、時間に対して非線形のレギュレートバウンドを確立すること。
合成データおよび実世界のデータセットにおいて、CombLinTSがスケーラブルでハイパーパrameterに対してロバストであり、既存のベースラインを著しく上回ることを実証的に示すこと。

提案手法

アイテム特徴量における線形一般化を用いて、組合せ的セミバンディットに拡張されたトマソンサンプリングを提案する組合せ的線形トマソンサンプリング（CombLinTS）。
線形パラメータ化されたアイテム重みの信頼区間を用いるUCBベースの代替手法として、組合せ的線形UCB（CombLinUCB）を提案する。
アイテム重みを特徴量ベクトルの線形関数としてモデル化する：$\mathbb{E}[w(e)] = \phi_e^T \theta^*$、ここで$\phi_e$はアイテム$e$の特徴量ベクトルである。
共役事前分布を用いたベイジアン線形モデルを用い、$\theta^*$の事後分布を維持することで、CombLinTSにおける効率的なトマソンサンプリングを可能にする。
各ラウンドにおける組合せ最適化問題を解くために、効率的なオフラインオラクルを活用し、オフライン問題が解ける限り計算効率を保証する。
推定重みが真の重みに近い高確率事象に条件づけて、集中不等式と行列ノルムを用いて、レギュレートバウンドを導出する。

実験結果

リサーチクエスチョン

RQ1大規模な問題において、アイテム数$L$に依存しないレギュレートを達成できる組合せバンディットアルゴリズムを設計できるか？
RQ2アイテム特徴量における線形一般化を効果的に活用することで、組合せ的セミバンディットにおけるレギュレートを低減できるか？
RQ3線形一般化を用いたトマソンサンプリングおよびUCBベースのアプローチは、大規模なアイテム集合にスケーリングする際も理論的レギュレート保証を維持できるか？
RQ4これらのアルゴリズムは、数千個のアイテムを含む実世界および合成データセットにおいて実際の性能をどのように示すか？
RQ5提案されたアルゴリズムは、最小限の修正で文脈的組合せ的セミバンディットに拡張可能か？

主な発見

CombLinTSおよびCombLinUCBは、合理的な仮定の下で、時間$n$に対して非線形に依存する$L$-独立のレギュレートバウンド$O(\sqrt{dn \log n})$を達成する。
CombLinUCBのレギュレートバウンドは$R^\gamma(n) \leq \frac{2cK\lambda}{1-\gamma}\sqrt{\frac{dn\ln(1+nK\lambda^2/(d\sigma^2))}{\ln(1+\lambda^2/\sigma^2)}} + nK\delta$であり、$c$は$\lambda$、$\sigma$、$\delta$を含む特定の条件を満たす。
理論的レギュレートバウンドは$L = \infty$の場合でも成立し、無限大のアイテム空間に対してもロバストであることを示している。
実証的評価では、CombLinTSが数千個のアイテムを含む問題にスケーラブルであり、ハイパーパrameterの選択に対してロバストであることが示された。
合成および実世界のデータセットにおいて、CombLinTSはすべてのベースラインアルゴリズムを著しく上回った。特に、実世界の二部マッチング問題において顕著な性能を示した。
解析およびアルゴリズムは、文脈的組合せ的セミバンディットに自然に拡張可能であり、適用範囲を広げた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。