QUICK REVIEW

[논문 리뷰] Learning Scheduling Algorithms for Data Processing Clusters

Hongzi Mao, Malte Schwarzkopf|arXiv (Cornell University)|2018. 10. 03.

Cloud Computing and Resource Management참고 문헌 71인용 수 50

한 줄 요약

Decima는 그래프 신경망을 이용한 강화학습으로 데이터 처리 클러스터의 워크로드 특화 DAG 스케줄링 정책을 학습하여 Spark에서 수동으로 조정된 휴리스틱보다 뛰어난 성능을 보이며, 고부하 상황에서 상당한 속도 향상을 달성한다.

ABSTRACT

Efficiently scheduling data processing jobs on distributed compute clusters requires complex algorithms. Current systems, however, use simple generalized heuristics and ignore workload characteristics, since developing and tuning a scheduling policy for each workload is infeasible. In this paper, we show that modern machine learning techniques can generate highly-efficient policies automatically. Decima uses reinforcement learning (RL) and neural networks to learn workload-specific scheduling algorithms without any human instruction beyond a high-level objective such as minimizing average job completion time. Off-the-shelf RL techniques, however, cannot handle the complexity and scale of the scheduling problem. To build Decima, we had to develop new representations for jobs' dependency graphs, design scalable RL models, and invent RL training methods for dealing with continuous stochastic job arrivals. Our prototype integration with Spark on a 25-node cluster shows that Decima improves the average job completion time over hand-tuned scheduling heuristics by at least 21%, achieving up to 2x improvement during periods of high cluster load.

연구 동기 및 목표

클러스터 활용도 향상과 작업 완료 시간 단축을 위해 워크로드 특화 스케줄링의 필요성을 제시한다.
워크로드 데이터에서 인간의 튜닝 없이 정책을 자동으로 학습하는 기계 학습 기반 스케줄러를 개발한다.
DAG 구조의 데이터 처리 워크로드에 적합한 확장 가능한 표현과 RL 학습 방법을 시연한다.

제안 방법

그래프 신경망으로 DAG-구조의 작업과 클러스터 상태를 표현하고, 정책 네트워크에서 사용하는 임베딩을 생성한다.
일정을 결정하는 결정을 두 차원 액션으로 인코딩하여 스케줄링할 단계와 그 작업의 병렬성 한도를 선택한다.
정책 경사 강화 학습으로 목표 상위 목표에 연결된 보상(예: 평균 JCT 최소화)으로 학습하되 분산 감소를 위해 베이스라인을 사용한다.
에피소드 설계와 실제 도착 시퀀스에 대한 피드백 조건화를 통해 연속적 확률적 작업 도착을 처리하여 스트리밍 워크로드 하에서의 학습을 가능하게 한다.
25-node 클러스터에서 DAG 단계와 실행기 할당을 스케줄하기 위해 Decima를 Spark와 통합하고, 수동으로 조정된 휴리스틱 및 기존 정책과 비교 평가한다.

실험 결과

연구 질문

RQ1강화 학습이 DAG-구조의 데이터 처리 워크로드에 대해 워크로드 특화 스케줄링 정책을 학습할 수 있는가?
RQ2그래프 신경망을 어떻게 사용하여 스케줄링 결정에서 임의의 크기와 형태를 갖는 DAG에 대한 상태 표현을 확장할 수 있는가?
RQ3계속적이고 확률적 인 작업 도착을 RL 학습이 처리하고 여전히 효과적인 정책으로 수렴할 수 있는가?
RQ4다양한 클러스터 부하 및 워크로드 특성에서 전통적 휴리스틱에 비해 Decima가 달성할 수 있는 성능 향상은 어느 정도인가?
RQ5작업 단위의 병렬성 제어가 교육의 복잡성을 줄이면서도 거의 미세한 스케줄링 성능에 충분한가?

주요 결과

Decima는 25-node Spark 클러스터에서 수동으로 조정된 스케줄링 휴리스틱 대비 평균 작업 완료 시간을 최소 21% 향상시킨다.
큰 클러스터 부하에서 Decima는 기존 휴리스틱에 비해 JCT를 최대 2배까지 개선한다.
다중 자원 스케줄링(CPU 및 메모리)에서 Decima는 Graphene 등 기존 체계에 비해 평균 JCT를 32–43% 향상시킨다.
확장 가능한 그래프 신경망 설계로 DAG 단계 및 병렬성 수준을 스케줄링하기 위해 임의의 모양과 크기의 DAG를 처리할 수 있다.
일련의 RL 학습 기법은 무한하게 확장 가능한 확률적 작업 도착과 스트리밍 워크로드에 대응하는 정책 학습을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.