[論文レビュー] On Delay-Optimal Scheduling in Queueing Systems with Replications
本稿は、スローガー効果を軽減するためのタスクのリプリケーションを伴うキューイングシステムにおける低複雑性で遅延最適なスケジューリング方針を提案する。サンプルパスおよび作業効率順序付けを用いた確率的優位性の保証を確立し、EDD-GRおよびFUT-GR方針が、任意の到着、ジョブサイズ、期日、非均一サーバー、データローカリティ制約を伴う一般設定下で遅延最適性を達成することを証明する。
In modern computer systems, jobs are divided into short tasks and executed in parallel. Empirical observations in practical systems suggest that the task service times are highly random and the job service time is bottlenecked by the slowest straggling task. One common solution for straggler mitigation is to replicate a task on multiple servers and wait for one replica of the task to finish early. The delay performance of replications depends heavily on the scheduling decisions of when to replicate, which servers to replicate on, and which job to serve first. So far, little is understood on how to optimize these scheduling decisions for minimizing the delay to complete the jobs. In this paper, we present a comprehensive study on delay-optimal scheduling of replications in both centralized and distributed multi-server systems. Low-complexity scheduling policies are designed and are proven to be delay-optimal or near delay-optimal in stochastic ordering among all causal and non-preemptive policies. These theoretical results are established for general system settings and delay metrics that allow for arbitrary arrival processes, arbitrary job sizes, arbitrary due times, and heterogeneous servers with data locality constraints. Novel sample-path tools are developed to prove these results.
研究の動機と目的
- 現代のコンピュータシステムにおけるジョブ完了遅延を最小化するためのリプリケーションスケジューリング最適化に関する理論的理解の不足に対処する。
- データローカリティ制約下で、集中型および分散型マルチサーバーシステムにおいて、証明可能な遅延最適性を達成する低複雑性スケジューリング方策を設計する。
- 任意の到着プロセス、ジョブサイズ、期日、非均一サーバーのサービス時間分布下での遅延性能に関する一般化された確率的優位性結果を確立する。
- 新規のサンプルパスおよび作業効率順序付けツールを用いて、リプリケーションベースのスローガー軽減の理論的基盤を提供する。
提案手法
- 因果的かつ非プリエンプティブ制約下で、異なるスケジューリング方策の下でのシステム性能を比較するための新規サンプルパスツールを開発する。
- 集中型および分散型システムにおける、グループリプリケーション付きの最早期日(EDD-GR)および最初使用時刻(FUT-GR)方策を導入する。
- 確率的順序付け(特に確率的優位性および弱マジョライゼーション)を用いて、提案方策の遅延分布を任意の因果的・非プリエンプティブ方策と比較する。
- EDD-GRおよびFUT-GR方策が、他のいかなる方策よりもジョブ完了遅延を確率的に優位にすることを示すことにより、遅延最適性を証明する。
- NBU/NWUサービス時間分布の性質を用いて理論的バウンディングを確立し、サーバーグループ間の独立性を活用して解析を分離する。
- カップリング論法および順序統計を用いて、提案方策が最大ジョブ遅延および他の対称的遅延指標を最小化することを示す。
実験結果
リサーチクエスチョン
- RQ1一般のシステム条件下で、タスクリプリケーションを伴う集中型および分散型キューイングシステムにおけるジョブ完了遅延を最小化するスケジューリング方策は何か?
- RQ2指数分布やメモリレスサービス時間の仮定をせず、確率的優位性を用いてリプリケーションベーススケジューリング方策の遅延最適性をどのように証明できるか?
- RQ3データローカリティ制約は、遅延最適リプリケーション方策の設計および性能にどの程度影響を及えるか?
- RQ4EDD-GRおよびFUT-GRのような低複雑性方策は、任意の到着およびジョブサイズを含む広範なクラスのシステムモデルにおいて遅延最適性を達成できるか?
- RQ5サンプルパスおよび作業効率順序付けは、一般の遅延指標下でのリプリケーションスケジューリングの最適性証明において、どのような役割を果たすか?
主な発見
- EDD-GR方策は、最大ジョブ完了遅延を含むすべての対称的かつ増加的遅延指標において、確率的順序付けの意味で遅延最適性を達成する。
- FUT-GR方策は、重み付き和や遅延順序統計に基づく指標を含むクラス $ar{ u}_{ ext{Sch-1}}$ のすべての遅延指標において遅延最適性を達成する。
- 提案方策は、任意の到着プロセス、任意のジョブサイズ、任意の期日、ハードなデータローカリティ制約を伴う非均一サーバーを含む一般システムモデル下で、証明された最適性を有する。
- 本稿は、EDD-GRおよびFUT-GR方策が、ジョブ完了遅延分布の観点から、任意の因果的・非プリエンプティブ方策を確率的に優位にすることを確立する。
- 解析により、リプリケーションによって遅延尾部が顕著に短縮されることが証明され、実測結果ではGoogleのBigTableにおいて99.9%-分位遅延が1,800 msから74 msに短縮された。
- 新規のサンプルパスカップリングおよび確率的優位性技術を用いて理論的保証を確立し、先行研究を指数分布およびi.i.d.でないサービス時間分布へと拡張した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。