QUICK REVIEW

[論文レビュー] Combinatorial Bandits Revisited

Richard Combes, Sadegh Talebi|arXiv (Cornell University)|Feb 11, 2015

Advanced Bandit Algorithms Research参考文献 32被引用数 114

ひとこと要約

本稿では、それぞれの半バンドイットおよびバンドイットフィードバックの下で、確率的および悪意的な組合せ的バンディット問題に対する新しいアルゴリズムであるESCBとCombEXPを提案する。ESCBは、$\mathcal{O}(\sqrt{m}d\Delta_{\min}^{-1}\log T)$のレグレットバウンドを達成し、従来の手法よりも$\sqrt{m}$の要因で改善される。一方、CombEXPは$m$-集合、マッチング、スパニングツリーなどの問題において、状態の最良レグレットスケーリングを達成しながら、計算複雑性を低く抑える。

ABSTRACT

This paper investigates stochastic and adversarial combinatorial multi-armed bandit problems. In the stochastic setting under semi-bandit feedback, we derive a problem-specific regret lower bound, and discuss its scaling with the dimension of the decision space. We propose ESCB, an algorithm that efficiently exploits the structure of the problem and provide a finite-time analysis of its regret. ESCB has better performance guarantees than existing algorithms, and significantly outperforms these algorithms in practice. In the adversarial setting under bandit feedback, we propose extsc{CombEXP}, an algorithm with the same regret scaling as state-of-the-art algorithms, but with lower computational complexity for some combinatorial problems.

研究の動機と目的

半バンドイットフィードバックの下での確率的組合せ的バンディット問題に対して、問題固有のレグレット下界を確立すること。
問題の構造を活用し、既存の手法よりもタイトなレグレットバウンドを達成する効率的なアルゴリズムESCBを設計すること。
バンドイットフィードバックの下での悪意的な組合せ的バンディット問題に対して、CombEXPを提案し、状態の最良レグレットスケーリングを達成しながら、計算コストを低減すること。
さまざまな組合せ的構造、特に$m$-集合、マッチング、スパニングツリー、カット集合を含む、両アルゴリズムのレグレットスケーリングを分析すること。

提案手法

情報理論的議論を用いて、確率的組合せ的バンディット問題の漸近的レグレット下界を導出し、タイトさと問題固有の依存関係を示す。
尤度比検定に基づくKL-UCBスタイルのインデックスを、誤差が消えるようにアームに割り当てることで、効率的な探索を可能にするESCBを提案する。
ESCBにおいて、推定報酬の不確実性が大きいアームを優先することで、探索と活用のバランスを取る逐次的サンプリング戦略を採用する。
組合せ的行動集合の凸包への新しい射影ステップ（KLダイバージェンスを用いて）を導入し、指数的重み法に基づくCombEXPを提案する。
特に行動集合に構造的なサポートがある場合に、効率的に指数的重み更新を計算するために、反復的射影アルゴリズム（例：Sinkhornスタイル）を適用する。
行列の固有値解析と期待被覆確率を用いて、特に$\underline{\lambda}$と$\mu_{\min}$を介して、悪意的な設定におけるレグレットをバウンドする。

実験結果

リサーチクエスチョン

RQ1半バンドイットフィードバックの下での確率的組合せ的バンディット問題における、レグレットの根本的限界は何か？また、$m$および$d$にどのように依存するか？
RQ2既存の$\mathcal{O}(m^2d/\Delta_{\min}\log T)$のバウンドよりも、$\mathcal{O}(\sqrt{m}d\Delta_{\min}^{-1}\log T)$のスケーリングを達成できるアルゴリズムを設計できるか？
RQ3構造的行動集合を有する組合せ的問題において、CombEXPが状態の最良レグレットスケーリングを達成しながら、計算複雑性を低減できるか？
RQ4ESCBおよびCombEXPのレグレットバウンドは、$m$-集合、マッチング、スパニングツリー、カット集合などの異なる組合せ的構造においてどのようにスケーリングされるか？

主な発見

本稿では、確率的組合せ的バンディット問題に対して、問題固有のレグレット下界を確立し、タイトさを示し、アルゴリズム設計の理論的基盤を提供する。
ESCBは、$\mathcal{O}(\sqrt{m}d\Delta_{\min}^{-1}\log T)$のレグレットバウンドを達成し、従来の手法よりも$\sqrt{m}$の要因で改善され、数値実験でも顕著に優れた性能を示す。
CombEXPは、状態の最良レグレットスケーリング—$\mathcal{O}(\sqrt{m^3 T (d + m^{1/2} \underline{\lambda}^{-1}) \log \mu_{\min}^{-1}})$—を達成するが、計算複雑性は低くなる。
$m$-集合の場合、CombEXPのレグレットは$\mathcal{O}(\sqrt{m^3 d T \log(d/m)})$にスケーリングされ、ComBandおよびJohnの探索を用いたEXP2と一致する。
$\mathcal{K}_{m,m}$における完全マッチングの場合、CombEXPのレグレットは$\mathcal{O}(\sqrt{m^5 T \log m})$にスケーリングされ、既知の上界と一致する。
$\mathcal{K}_N$におけるスパニングツリーの場合、$N \geq 6$のとき、CombEXPは$\mathcal{O}(\sqrt{N^5 T \log N})$のレグレットを達成する。これは、ComBandおよびJohnの探索を用いたEXP2と一致する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。