Skip to main content
QUICK REVIEW

[论文解读] On Delay-Optimal Scheduling in Queueing Systems with Replications

Yin Sun, C. Emre Koksal|arXiv (Cornell University)|Mar 23, 2016
Advanced Queuing Theory Analysis参考文献 40被引用 35
一句话总结

本文提出了一类低复杂度、延迟最优的调度策略,用于具有任务复制的排队系统,以缓解慢启动者(straggler)效应。通过样本路径和工作效率排序方法,建立了随机优势保证,证明在具有任意到达过程、作业大小、截止时间以及异构服务器的通用设置下,且在数据局部性约束条件下,EDD-GR 和 FUT-GR 策略均能实现延迟最优。

ABSTRACT

In modern computer systems, jobs are divided into short tasks and executed in parallel. Empirical observations in practical systems suggest that the task service times are highly random and the job service time is bottlenecked by the slowest straggling task. One common solution for straggler mitigation is to replicate a task on multiple servers and wait for one replica of the task to finish early. The delay performance of replications depends heavily on the scheduling decisions of when to replicate, which servers to replicate on, and which job to serve first. So far, little is understood on how to optimize these scheduling decisions for minimizing the delay to complete the jobs. In this paper, we present a comprehensive study on delay-optimal scheduling of replications in both centralized and distributed multi-server systems. Low-complexity scheduling policies are designed and are proven to be delay-optimal or near delay-optimal in stochastic ordering among all causal and non-preemptive policies. These theoretical results are established for general system settings and delay metrics that allow for arbitrary arrival processes, arbitrary job sizes, arbitrary due times, and heterogeneous servers with data locality constraints. Novel sample-path tools are developed to prove these results.

研究动机与目标

  • 解决在现代计算机系统中,针对最小化作业完成延迟的复制调度优化缺乏理论理解的问题。
  • 设计在具有数据局部性约束的集中式与分布式多服务器系统中,可证明延迟最优的低复杂度调度策略。
  • 在任意到达过程、作业大小、截止时间以及异构服务器服务时间分布下,建立延迟性能的一般随机优势结果。
  • 为基于复制的慢启动者缓解机制提供理论基础,引入新颖的样本路径和工作效率排序工具。

提出的方法

  • 开发新颖的样本路径工具,用于在因果性和非抢占性约束下,比较不同调度策略的系统性能。
  • 提出适用于集中式与分布式系统的最早截止日期组复制(EDD-GR)和首次使用时间组复制(FUT-GR)策略。
  • 利用随机序(特别是随机优势和弱极大化)比较所提策略与其他任意因果性、非抢占性策略的延迟分布。
  • 通过证明所提策略的作业完成延迟在随机序意义上优于任何其他策略,从而证明 EDD-GR 和 FUT-GR 策略具有延迟最优性。
  • 利用 NBU/NWU 服务时间分布的性质建立理论边界,并利用服务器组之间的独立性,实现分析的解耦。
  • 借助耦合论证和顺序统计方法,证明所提策略能最小化最大作业延迟及其他对称延迟度量。

实验结果

研究问题

  • RQ1在具有任务复制的集中式与分布式排队系统中,在一般系统条件下,哪些调度策略能最小化作业完成延迟?
  • RQ2如何利用随机优势证明复制调度策略的延迟最优性,而无需假设服务时间为指数分布或无记忆分布?
  • RQ3数据局部性约束在多大程度上影响延迟最优复制策略的设计与性能?
  • RQ4像 EDD-GR 和 FUT-GR 这类低复杂度策略,是否能在包括任意到达过程和作业大小在内的广泛系统模型中实现延迟最优?
  • RQ5样本路径和工作效率排序在一般延迟度量下,对复制调度最优性证明中起到何种作用?

主要发现

  • EDD-GR 策略在所有对称和递增的延迟度量下(包括最大作业完成延迟)均具有随机序意义下的延迟最优性。
  • FUT-GR 策略在类 $ar{ u}_{ ext{Sch-1}}$ 的所有延迟度量中实现延迟最优性,包括基于加权和与作业延迟顺序统计量的度量。
  • 所提策略在通用系统模型下被证明为最优:包括任意到达过程、任意作业大小、任意截止时间,以及具有硬性数据局部性约束的异构服务器。
  • 本文证明,EDD-GR 和 FUT-GR 策略在作业完成延迟分布上,对任意因果性、非抢占性策略均具有随机优势。
  • 分析表明,复制可显著降低延迟尾部,实证结果表明在 Google 的 BigTable 中,99.9% 分位数延迟从 1,800 ms 降低至 74 ms。
  • 通过新颖的样本路径耦合与随机优势技术,建立了理论保证,将先前结果扩展至非指数分布和非 i.i.d. 服务时间分布。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。