[论文解读] Scheduling Distributed Clusters of Parallel Machines: Primal-Dual and LP-based Approximation Algorithms
本文提出了首个针对分布式并行机集群中作业调度的常数因子近似算法,旨在最小化加权平均完成时间。该工作提出一种基于新颖映射至单机特例的组合算法,并结合具有强理论保证的线性规划(LP)舍入方法,在单位速度条件下实现2-近似,并扩展了先前关于并发开放车间调度的研究。
The Map-Reduce computing framework rose to prominence with datasets of such size that dozens of machines on a single cluster were needed for individual jobs. As datasets approach the exabyte scale, a single job may need distributed processing not only on multiple machines, but on multiple clusters. We consider a scheduling problem to minimize weighted average completion time of N jobs on M distributed clusters of parallel machines. In keeping with the scale of the problems motivating this work, we assume that (1) each job is divided into M "subjobs" and (2) distinct subjobs of a given job may be processed concurrently. When each cluster is a single machine, this is the NP-Hard concurrent open shop problem. A clear limitation of such a model is that a serial processing assumption sidesteps the issue of how different tasks of a given subjob might be processed in parallel. Our algorithms explicitly model clusters as pools of resources and effectively overcome this issue. Under a variety of parameter settings, we develop two constant factor approximation algorithms for this problem. The first algorithm uses an LP relaxation tailored to this problem from prior work. This LP-based algorithm provides strong performance guarantees. Our second algorithm exploits a surprisingly simple mapping to the special case of one machine per cluster. This mapping-based algorithm is combinatorial and extremely fast. These are the first constant factor approximations for this problem.
研究动机与目标
- 为应对在多个并行机集群中调度大规模作业的挑战,该研究动机源于对艾字节级数据处理需求的驱动。
- 通过允许异构机器速度、释放时间以及加权作业完成时间,扩展先前的模型。
- 为这一广义的分布式调度问题设计首个常数因子近似算法。
- 克服先前启发式方法(如SWAG)的局限性,后者缺乏最坏情况下的性能保证。
- 提供基于LP和组合算法的双重方法,具有强理论性能边界。
提出的方法
- 提出一种新的问题建模——并发集群调度,其中每个作业被拆分为子作业,在m个集群中分别处理,每个集群包含多台并行机器。
- 引入一种受对偶启发的LP松弛方法,针对问题特点进行定制,使用修改后的约束集以建模子作业完成时间与机器速度差异。
- 通过一种出人意料的映射至单机每集群情形,开发出一种组合算法,实现O(n² + nm)的时间复杂度。
- 应用LP舍入技术,并引入一个在LP中未显式表达但关键的作业完成时间Cj的下界,以增强近似保证。
- 通过将P||∑wjLj问题转换为CC||∑wjCj问题,证明了变换后问题与原始问题解的最优性等价。
- 在LP松弛中引入约束修改,以捕捉集群调度问题的结构特性,从而实现更紧的界。
实验结果
研究问题
- RQ1我们能否为具有异构速度与释放时间的分布式集群并行机环境下的作业调度问题,设计出常数因子近似算法?
- RQ2在并发集群调度中,单排列调度与多排列调度的性能表现如何比较?
- RQ3是否可以设计一种不依赖LP松弛的组合算法,同时实现强近似比?
- RQ4在单位速度情形下,限制为单排列调度时,最优性损失的最坏情况是多少?
- RQ5在LP松弛中引入隐式约束修改,是否能提升调度问题中的近似性能?
主要发现
- 本文首次为并发集群调度问题提出了常数因子近似算法,其适用范围已超越NP难的并发开放车间模型。
- 基于LP的算法在所有机器均为单位速度且子作业被均分任务时,实现了2-近似。
- 基于映射至单机每集群情形的组合算法,时间复杂度为O(n² + nm),并提供常数因子近似。
- 理论分析表明,单排列调度与全局最优解相比,最坏情况下可能产生高达1.2倍的最优性差距,但始终可实现3-近似。
- 通过引入作业完成时间Cj的隐式下界,强化了LP松弛,这对实现紧致近似比至关重要。
- 本方法表明,在标准LP松弛中冗余的约束,在建模集群特定调度结构时可能变得至关重要。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。