Skip to main content
QUICK REVIEW

[論文レビュー] Distributed Bandit Learning: Near-Optimal Regret with Efficient Communication

Yuanhao Wang, Jiachen Hu|arXiv (Cornell University)|Apr 12, 2019
Advanced Bandit Algorithms Research被引用数 26
ひとこと要約

本稿では、通信コストを抑えた分散型マルチアームバンディットおよび線形バンディットのための通信効率の高いプロトコルであるDEMABとDELBを提案する。これらのプロトコルは、周期的かつ圧縮された通信と適応的排除を用いることで、通信コストをMABではO(M log(MK))、線形バンディットではÕ(Md)にまで低減し、時間枠Tに対して対数的依存性を示す一方で、単一エージェントの最適性能に近いレグレットを維持する。

ABSTRACT

We study the problem of regret minimization for distributed bandits learning, in which $M$ agents work collaboratively to minimize their total regret under the coordination of a central server. Our goal is to design communication protocols with near-optimal regret and little communication cost, which is measured by the total amount of transmitted data. For distributed multi-armed bandits, we propose a protocol with near-optimal regret and only $O(M\\log(MK))$ communication cost, where $K$ is the number of arms. The communication cost is independent of the time horizon $T$, has only logarithmic dependence on the number of arms, and matches the lower bound except for a logarithmic factor. For distributed $d$-dimensional linear bandits, we propose a protocol that achieves near-optimal regret and has communication cost of order $\ ilde{O}(Md)$, which has only logarithmic dependence on $T$.

研究の動機と目的

  • 時間枠Tに線形的に依存しない通信コストを最小化しつつ、分散バンディット学習における近似的に最適なレグレットを維持する課題に対処すること。
  • エージェント数Mおよびアーム数Kに対して効率的にスケーリングするプロトコルを設計すること。時間枠Tに線形的な依存関係を避け、通信コストを抑えること。
  • センサーネットワークやフェデレーテッドラーニングなど、大規模または通信制約のある環境における実用的導入を可能にすること。
  • 中央サーバーを前提とした集中型モデルにおいて、マルチアームバンディットおよび線形バンディット設定の両方で近似的に最適なレグレットを達成すること。また、ピアツーピアネットワークへの拡張性を有すること。

提案手法

  • 2段階のアプローチ(バーニング段階と適応的排除段階)を用いた分散型マルチアームバンディットのためのDEMABを提案する。
  • 排除段階では、エージェントが周期的に集約統計量(例:実現平均、カウント)をサーバーに送信するが、圧縮された低コストメッセージを用いる。
  • サーバーがエージェントの統計量を集約する通信効率の高いメカニズムを導入。各段階でサーバーはO(M)のコストでアームの排除意思決定をブロードキャストし、各エージェントの統計量を収集する。
  • 線形バンディットの場合、線形回帰と信頼楕円体を用いたパラメータ推定を組み込んだ、同様の通信構造を持つDELBを設計する。
  • サーバーからエージェント、およびエージェントからサーバーへの通信パターンを採用し、ピアツーピア(P2P)への適応を可能にする。中央集権的ブロードキャストを逐次メッセージ伝達に置き換える。
  • 統計的集中性と非最適アームの排除を活用することで、通信コストにおけるKおよびTに対する対数的依存性を実現する。

実験結果

リサーチクエスチョン

  • RQ1分散バンディット学習は、時間枠Tに依存しない通信コストで、近似的に最適なレグレットを達成できるか?
  • RQ2マルチエージェント環境下で、集中型バンディット学習と同等のレグレットを維持するために必要な最小通信コストは何か?
  • RQ3マルチアームバンディットおよび線形バンディット問題の両方において、学習効率を保ちながらデータ送信量を最小限に抑える通信構造はどのように設計できるか?
  • RQ4提案されたプロトコルは、中央サーバーが存在しないピアツーピアネットワークに適応可能か?その場合、どのようなパフォーマンス上の妥協が生じるか?
  • RQ5通信コストは、エージェント数M、アーム数K、次元dに対してどの程度スケーリングするか?

主な発見

  • DEMABは、レグレットO(√(MKT log T) + M² log(MK))を達成し、通信コストはO(M log(MK))である。これは近似的に最適であり、時間枠Tに依存しない。
  • 分散型線形バンディットでは、DELBはレグレットO(d√(MT log T) + M² log T)を達成し、通信コストはÕ(Md + d log log d) log Tである。Tにたいして対数的依存性を示す。
  • T > M³ log M であれば、両プロトコルのレグレットは漸近的に近似的に最適であり、単一エージェントのレグレット境界に、対数的要因を除いて一致する。
  • DEMABの通信コストは、分散型MABにおける既知の下界と一致するため、対数的要因を除いて最適である。
  • 中央集権的通信を逐次メッセージ伝達に置き換えることで、ピアツーピアネットワークへの拡張が可能であり、Tが大きい場合には追加のレグレットとしてO(M²)しか発生しない。
  • 長時間枠においても通信コストが低く抑えられることから、近似的に最適なパフォーマンスを達成するには、頻繁なデータ共有が必ずしも必要でないことが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。