QUICK REVIEW

[論文レビュー] Regret of Queueing Bandits

Subhashini Krishnasamy, Rajat Sen|arXiv (Cornell University)|Jan 1, 2016

Advanced Bandit Algorithms Research参考文献 35被引用数 15

ひとこと要約

本稿では、初期にサービスレートが未知であるキューイングバンディット枠組みを導入し、ジェイン・エイドド・オラクルに比べたキュー長の期待差であるキュー・レグレットを最小化するアルゴリズムを提案する。2段階のレグレット行動が明らかになった：初期段階では古典的バンディットと同様に対数的（logarithmic）に、その後はO(1/t)に漸近的に減少する。提案されたアルゴリズムは両段階において順序最適な性能を達成する。

ABSTRACT

We consider a variant of the multiarmed bandit problem where jobs queue for service, and service rates of different servers may be unknown. We study algorithms that minimize queueregret: the (expected) difference between the queue-lengths obtained by the algorithm, and those obtained by a “genie”-aided matching algorithm that knows exact service rates. A naive view of this problem would suggest that queue-regret should grow logarithmically: since queue-regret cannot be larger than classical regret, results for the standard MAB problem give algorithms that ensure queue-regret increases no more than logarithmically in time. Our paper shows surprisingly more complex behavior. In particular, the naive intuition is correct as long as the bandit algorithm’s queues have relatively long regenerative cycles: in this case queue-regret is similar to cumulative regret, and scales (essentially) logarithmically. However, we show that this “early stage” of the queueing bandit eventually gives way to a “late stage”, where the optimal queue-regret scaling is O(1/t). We demonstrate an algorithm that (order-wise) achieves this asymptotic queue-regret, and also exhibits close to optimal switching time from the early stage to the late stage.

研究の動機と目的

ジョブがサービスを待つキューイングシステムにおいて、サービスレートが初期に未知であるマルチアームバンディット問題のレグレットをモデル化・分析すること。
特に、古典的バンディット設定における標準的レグレットと比較して、キュー・レグレットが時間経過とともにどのようにスケーリングするかを理解すること。
キュー動的の初期段階と後期段階の遷移に適応することで、キュー・レグレットを最小化するアルゴリズムを開発すること。
最適キュー・レグレットの根本的スケーリングを特徴づけ、それが対数的からO(1/t)の行動に移行することを示すこと。

提案手法

サービスレートを完全に把握するジェイン・エイドド・オラクルとの累積キュー長の期待差としてキュー・レグレットを形式化すること。
バンディットフィードバック下でのキューイングシステムのダイナミクスを分析し、長大な再生サイクルを持つ初期段階と、定常状態への収束を示す後期段階を区別すること。
探索、キューの蓄積、システムの再生の相互作用に依存するキュー・レグレットの理論的境界を導出すること。
初期段階では探索が支配的で、後期段階では活用が支配的になるように適応的に切り替えるアルゴリズムを設計し、全体のキュー・レグレットを最小化すること。
確率的カップリングと再生理論を用いて、2つのレグレットレジーム間の遷移を分析すること。
導出されたキュー・レグレットスケーリングの下界と一致するように、提案アルゴリズムの順序的最適性を確立すること。

実験結果

リサーチクエスチョン

RQ1未知のサービスレートとキューイングダイナミクスを伴うマルチアームバンディットにおいて、キュー・レグレットは時間経過とともにどのようにスケーリングするか？
RQ2古典的マルチアームバンディットにおける標準的対数的レグレットスケーリングは、キューイングバンディット設定でも維持されるか？
RQ3キュー動的のどのような構造的変化が、対数的からO(1/t)のレグレットスケーリングへの移行を引き起こすか？
RQ4初期段階と後期段階の遷移に適応するアルゴリズムを設計することで、順序最適なレグレットを達成できるか？
RQ5このキューイングバンディットフレームワークにおけるキュー・レグレットの根本的限界は何か？

主な発見

再生サイクルが長い間、キュー・レグレットは古典的マルチアームバンディットのレグレットと同様に、初期段階で対数的にスケーリングする。
遷移点を過ぎると、キュー・レグレットはO(1/t)に減少し、古典的バンディットとは根本的に異なる漸近的挙動を示す。
本稿では、この設定においてO(1/t)がキュー・レグレットの最適漸近的スケーリングであることを確立した。
O(1/t)スケーリングの順序的最適性を達成するアルゴリズムが提案され、理論的下界と一致する。
アルゴリズムは、初期段階（対数的）から後期段階（1/t）のレグレットフェーズへの近似的最適なタイミングでの切り替えを適応的に実行する。
初期段階から後期段階への遷移は、システムのキューイングダイナミクスと推定されたサービスレートの収束によって駆動される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。