QUICK REVIEW

[논문 리뷰] Scheduling Distributed Clusters of Parallel Machines: Primal-Dual and LP-based Approximation Algorithms

Riley Murray, Megan Chao|arXiv (Cornell University)|2016. 01. 01.

Scheduling and Optimization Algorithms참고 문헌 1인용 수 1

한 줄 요약

이 논문은 분산 클러스터에 분산된 병렬 머신에서 작업을 스케줄링하기 위한 최초의 상수 요인 근사 알고리즘을 제안하며, 가중 평균 완료 시간을 최소화한다. 새로운 단일 머신 특수 케이스로의 매핑 기반의 조합 알고리즘과 이론적으로 강력한 보장을 갖춘 선형계획법(LP) 라운딩 접근법을 도입하여, 단위 속도 조건 하에서 2-근사 근사를 달성하고, 동시 오픈 샷 스케줄링 분야의 이전 연구를 확장한다.

ABSTRACT

The Map-Reduce computing framework rose to prominence with datasets of such size that dozens of machines on a single cluster were needed for individual jobs. As datasets approach the exabyte scale, a single job may need distributed processing not only on multiple machines, but on multiple clusters. We consider a scheduling problem to minimize weighted average completion time of N jobs on M distributed clusters of parallel machines. In keeping with the scale of the problems motivating this work, we assume that (1) each job is divided into M "subjobs" and (2) distinct subjobs of a given job may be processed concurrently. When each cluster is a single machine, this is the NP-Hard concurrent open shop problem. A clear limitation of such a model is that a serial processing assumption sidesteps the issue of how different tasks of a given subjob might be processed in parallel. Our algorithms explicitly model clusters as pools of resources and effectively overcome this issue. Under a variety of parameter settings, we develop two constant factor approximation algorithms for this problem. The first algorithm uses an LP relaxation tailored to this problem from prior work. This LP-based algorithm provides strong performance guarantees. Our second algorithm exploits a surprisingly simple mapping to the special case of one machine per cluster. This mapping-based algorithm is combinatorial and extremely fast. These are the first constant factor approximations for this problem.

연구 동기 및 목표

엑사바이트 규모의 데이터 처리 수요에 기인하여, 다수의 클러스터에 분산된 병렬 머신을 통해 대규모 작업을 스케줄링하는 문제에 대응하기 위해.
비균일한 머신 속도, 출시 시간, 가중 작업 완료 시간을 허용함으로써 이전 모델을 확장하기 위해.
이 일반화된 분산 스케줄링 문제에 대해 최초의 상수 요인 근사 알고리즘을 개발하기 위해.
이론적 최악의 경우 성능 보장을 갖지 못하는 기존 휴리스틱 기법(SWAG 등)의 한계를 극복하기 위해.
강력한 이론적 성능 한계를 갖춘 LP 기반 알고리즘과 조합 알고리즘을 모두 제공하기 위해.

제안 방법

각 작업이 m개의 클러스터에 분할되어 처리되는 동시 클러스터 스케줄링이라는 새로운 문제 정식화를 제안하며, 각 클러스터는 다수의 병렬 머신을 갖는다.
문제에 특화된 프리멀-듀얼 유사 LP 타월화를 도입하여, 수정된 제약 조건 집합을 사용해 하위작업 완료 및 머신 속도 변화를 모델링한다.
단일 머신-클러스터 케이스로의 놀라운 매핑을 통해 조합 알고리즘을 개발하여, O(n² + nm) 시간 복잡도를 달성한다.
LP에 명시적으로 포함되지 않은 작업 완료 시간 Cj에 대한 새로운 하한을 도입하여, 근사 보장을 강화한다.
P||∑wjLj에서 CC||∑wjCj로의 변환을 사용하여, 변환된 문제와 원래 문제의 해가 최적성에서 동치임을 증명한다.
클러스터 스케줄링 문제의 구조적 특성을 반영하기 위해 LP 타월화에서 제약 조건을 수정하여, 더 날카로운 상한을 달성한다.

실험 결과

연구 질문

RQ1비균일한 속도와 출시 시간을 갖는 분산 클러스터의 병렬 머신에서 작업을 스케줄링하기 위한 상수 요인 근사 알고리즘을 설계할 수 있는가?
RQ2동시 클러스터 스케줄링에서 단일 순열 스케줄링과 다중 순열 스케줄링의 성능는 어떻게 비교되는가?
RQ3LP 타월화에 의존하지 않고도 조합 알고리즘이 강력한 근사 비율을 달성할 수 있는가?
RQ4단위 속도 조건 하에서 단일 순열 스케줄링으로 제한했을 때 최악의 경우 최적성 손실은 얼마인가?
RQ5LP 타월화에서 암묵적인 제약 조건 수정이 스케줄링 문제의 근사 성능 향상에 기여할 수 있는가?

주요 결과

논문은 동시 클러스터 스케줄링 문제에 대해 최초의 상수 요인 근사 알고리즘을 제시하며, NP-난이도의 동시 오픈 샷 모델을 초월한다.
모든 머신이 단위 속도일 경우, LP 기반 알고리즘이 2-근사 근사를 달성한다.
단일 머신-클러스터 케이스로의 매핑에 기반한 조합 알고리즘은 O(n² + nm) 시간 내에 실행되며, 상수 요인 근사를 제공한다.
이론적 분석을 통해 단일 순열 스케줄링은 전역 최적 해 대비 최대 1.2배의 최적성 갭을 가질 수 있음을 보여주지만, 항상 3-근사 근사를 확보할 수 있음을 입증한다.
작업 완료 시간 Cj에 대한 암묵적 하한을 도입함으로써 LP 타월화가 강화되며, 이는 날카로운 근사 비율 달성에 핵심적이다.
표준 LP 타월화에서 부적절한 것으로 간주되는 제약 조건들이 클러스터 특화 스케줄링 구조를 모델링할 때 필수적인 역할을 할 수 있음을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.