Skip to main content
QUICK REVIEW

[論文レビュー] Combinatorial semi-bandit with known covariance

Rémy Degenne, Vianney Perchet|arXiv (Cornell University)|Dec 6, 2016
Advanced Bandit Algorithms Research参考文献 1被引用数 25
ひとこと要約

本稿では、線形回帰技術を用いてアーム報酬の既知の共分散構造に適応する、組合せ的セミバンディット問題のための新規アルゴリズムを提案する。このアルゴリズムは、引き抜かれたアーム数 m に関して、新たな下界まで多項式対数的要因の差異を除き、レグレット境界を達成し、報酬が独立から相関するまでの中間的設定において最適性を示す。共分散行列がサブガウス型であることが既知の下で、報酬の相関構造に応じて適応可能である。

ABSTRACT

The combinatorial stochastic semi-bandit problem is an extension of the classical multi-armed bandit problem in which an algorithm pulls more than one arm at each stage and the rewards of all pulled arms are revealed. One difference with the single arm variant is that the dependency structure of the arms is crucial. Previous works on this setting either used a worst-case approach or imposed independence of the arms. We introduce a way to quantify the dependency structure of the problem and design an algorithm that adapts to it. The algorithm is based on linear regression and the analysis develops techniques from the linear bandit literature. By comparing its performance to a new lower bound, we prove that it is optimal, up to a poly-logarithmic factor in the number of pulled arms.

研究の動機と目的

  • アーム間の依存関係が学習の難易度に顕著に影響を与える組合せ的セミバンディット問題における学習の課題に対処すること。
  • 独立から完全に依存する報酬に至るまで、アーム間の相関度合いに応じて適応可能な単一のアルゴリズムを開発すること。
  • 報酬の共分散構造がレグレットに与える影響を定量化し、この構造に関する事前知識を活用する手法を設計すること。
  • 独立なアームと一般の相関アームを対象とする既存のアルゴリズムのギャップを埋めるために、統一的なフレームワークを導入すること。
  • 共分散行列の影響を反映する新たな下界を確立し、アルゴリズムの近似的最適性を証明すること。

提案手法

  • アルゴリズムは、サブガウス型共分散行列 C が既知であることを踏まえ、C ≼₊ Γ を満たす既知の半正定値行列 Γ を用いて、共分散構造を組み込む線形回帰を用いて平均報酬ベクトル μ を推定する。
  • 既知の共分散構造に基づく信頼楕円体アプローチを用いて、探索と活用のバランスを取る。
  • 推定誤差と分散を制御するための、新たなイベント分解を導入し、時間にわたる和集合バウンドを用いてレグレットを制御する。
  • 信頼区間の幾何級数を用い、ギャップと分散項に基づく各アームの引き抜き回数の上限を導出する。
  • レグレットは推定誤差と分散の成分に分解され、行列 Γ とサブガウス型ノイズ仮定を用いてきめ細やかに制御される。
  • アルゴリズムの設計により、アームの依存構造のスケール(Γ が対角行列の独立アームから一般の相関設定まで)に適応可能である。

実験結果

リサーチクエスチョン

  • RQ1アーム報酬の共分散構造は、組合せ的セミバンディット問題の根本的な難易度にどのように影響を与えるか?
  • RQ2単一のアルゴリズムが、独立から相関する報酬に至るまでのアーム依存の全範囲で近似的に最適なレグレットを達成できるか?
  • RQ3サブガウス型共分散行列の事前知識が得られる場合、最適なレグレットスケーリングは何か?
  • RQ4線形回帰技術を、部分的フィードバックを伴う組合せ的セミバンディット設定にどのように適応できるか?
  • RQ5共分散行列の構造とレグレット下界のタイトネスの関係は何か?

主な発見

  • 提案されたアルゴリズムは、新たに導出された下界まで、引き抜かれたアーム数 m に関して多項式対数的要因の差異を除き、レグレット境界を達成する。
  • レグレット境界は O(∑ᵢ Γ⁽ⁱⁱ⁾ / Δᵢ,ₘᵢₙ × (log m)²) としてスケーリングされ、行列 Γ を通じた共分散構造への適応性が示される。
  • アルゴリズムは log²m 要因の差異を除き最適であり、与えられた仮定下で m に依存する依存関係がタイトであることを確認する。
  • 分析により、共分散行列 C の事前知識(Γ を通じて)が、特に相関する設定においてレグレットを顕著に低減することが示された。
  • 独立アームと一般アームの既存手法を統一的に統合するフレームワークとして、本手法は効果的に一般化された。
  • 信頼区間における幾何級数の使用により、特に独立アームの場合に、従来の手法に比べてより優れたレグレット制御が達成された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。