Skip to main content
QUICK REVIEW

[論文レビュー] Distributed Exploration in Multi-Armed Bandits

Eshcar Hillel, Zohar Karnin|arXiv (Cornell University)|Nov 4, 2013
Advanced Bandit Algorithms Research参考文献 23被引用数 40
ひとこと要約

本稿は、k人の協調的プレイヤーがε-最適な腕を特定することを目的とした分散型マルチアームバンディット探索を研究する。1ラウンドの通信プロトコルを提案し、単一プレイヤー学習に比べて√kの高速化を達成する。また、対数的通信量を要するプロトコルにより、理想的なk倍の高速化を実現し、大規模な分散システムにおける通信と学習効率の根本的トレードオフを確立する。

ABSTRACT

We study exploration in Multi-Armed Bandits in a setting where $k$ players collaborate in order to identify an $ε$-optimal arm. Our motivation comes from recent employment of bandit algorithms in computationally intensive, large-scale applications. Our results demonstrate a non-trivial tradeoff between the number of arm pulls required by each of the players, and the amount of communication between them. In particular, our main result shows that by allowing the $k$ players to communicate only once, they are able to learn $\sqrt{k}$ times faster than a single player. That is, distributing learning to $k$ players gives rise to a factor $\sqrt{k}$ parallel speed-up. We complement this result with a lower bound showing this is in general the best possible. On the other extreme, we present an algorithm that achieves the ideal factor $k$ speed-up in learning performance, with communication only logarithmic in $1/ε$.

研究の動機と目的

  • 分散型マルチアームバンディット探索におけるプレイヤー間通信と学習パフォーマンスのトレードオフを理解すること。
  • 特に1回の通信ラウンドのみを用いて、非自明な学習高速化が達成可能かどうかを調査すること。
  • 通信制約下における協調的バンディット学習における並列化高速化の理論的限界を特定すること。
  • 特に大規模かつ計算コストの高い応用を想定し、通信コストと学習効率のバランスを取るアルゴリズムの設計。
  • 分散バンディット学習において最適な高速化を達成するための通信要件の下界を確立すること。

提案手法

  • プレイヤーが信頼区間に基づく階層的排除プロセスを用いて協力的に非最適な腕を排除する1ラウンド通信プロトコルを提案。
  • 任意の逐次的探索アルゴリズムをk人プレイヤーによるプロトコルに適応し、腕の試行をプレイヤー間で分散させることで、√kの並列高速化を達成。
  • しきい値ベースの排除戦略を採用し、rラウンド後にεr-最適でない腕を排除する。εrは幾何級数的に減少する。
  • Hoeffdingの不等式を用いて誤った排除確率を抑え、最終的に選択される腕が高確率でε-最適であることを保証。
  • 1/εに関して対数的通信量を要する複数ラウンドプロトコルを導入。プレイヤーが共有された結果に基づいて焦点を精錬可能であり、k倍の高速化を実現。
  • 集中不等式と再帰的排除深さを用いて、1プレイヤーあたりの腕の試行回数の上限を導出。Δεiとkに依存することを示す。

実験結果

リサーチクエスチョン

  • RQ11回の通信ラウンドでのみ通信が許可される場合、分散型マルチアームバンディットアルゴリズムが非自明な高速化を達成できるか?
  • RQ2通信が1ラウンドに制限された場合、分散バンディット探索における最大の並列化高速化はどの程度か?
  • RQ31/εに関して非線形通信コストで、学習パフォーマンスにおいて理想的なk倍の高速化を達成可能か?
  • RQ4通信ラウンド数が、学習効率と通信オーバーヘッドのトレードオフにどのように影響するか?
  • RQ5協調的バンディット学習において最適な高速化を達成するための通信量の根本的下界は何か?

主な発見

  • 1ラウンド通信プロトコルにより、単一プレイヤー学習に比べて√kの並列高速化が達成され、最小限の通信でも顕著なパフォーマンス向上が示された。
  • √kの高速化は、一致する下界によって漸近的に最適であることが示され、1回の通信ラウンドではそれ以上の高速化は不可能であることが証明された。
  • 1/εに関して対数的通信量を要する複数ラウンドプロトコルにより、学習パフォーマンスで理想的なk倍の高速化が達成され、完全な並列化効率が実現された。
  • 1プレイヤーあたりの腕の試行回数は、Δεiの逆数の2乗に比例し、Δεiとkに強く依存することが示された。
  • 排除しきい値εrを調整することで、アルゴリズムが最大R回の通信ラウンドで終了するように設定可能であり、試行複雑度は1プレイヤーあたりO(ε^(-2/R)/k)にスケーリングされる。
  • アルゴリズムは高確率(1−δ)で、終了時にε-最適な腕のみが残ることを保証しており、報酬推定値の集中不等式により正しさが保証される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。