QUICK REVIEW

[논문 리뷰] Heterogeneity-Aware Cluster Scheduling Policies for Deep Learning Workloads

Deepak Narayanan, Keshav Santhanam|arXiv (Cornell University)|2020. 08. 20.

Parallel Computing and Optimization Techniques참고 문헌 44인용 수 26

한 줄 요약

Gavel는 딥러닝 워크로드를 위한 이질성 인지 클러스터 스케줄러로, 정책 최적화 문제로 스케줄링 정책을 수립하여 공정성, 메이크스팬, 비용 효율성을 향상시킨다. 가속기(예: GPU, TPU) 간 성능 이질성을 모델링하고 공간 공유를 가능하게 하여, 이질성 간직 스케줄러 대비 평균 작업 완료 시간은 최대 3.5배 향상되고, 메이크스팬은 2.5배 감소시킨다.

ABSTRACT

Specialized accelerators such as GPUs, TPUs, FPGAs, and custom ASICs have been increasingly deployed to train deep learning models. These accelerators exhibit heterogeneous performance behavior across model architectures. Existing schedulers for clusters of accelerators, which are used to arbitrate these expensive training resources across many users, have shown how to optimize for various multi-job, multi-user objectives, like fairness and makespan. Unfortunately, existing schedulers largely do not consider performance heterogeneity. In this paper, we propose Gavel, a heterogeneity-aware scheduler that systematically generalizes a wide range of existing scheduling policies. Gavel expresses these policies as optimization problems, making it easy to optimize for objectives in a heterogeneity-aware way, while also being cognizant of performance optimizations like space sharing. Gavel then uses a round-based scheduling mechanism to ensure jobs receive their ideal allocation given the target scheduling policy. Gavel's heterogeneity-aware policies allow a heterogeneous cluster to sustain higher input load, and improve end objectives such as average job completion time and makespan by up to 3.5x compared to heterogeneity-agnostic policies.

연구 동기 및 목표

기존 GPU 및 가속기 클러스터 스케줄러가 가속기 유형 간 성능 차이를 무시하는 이질성 인지 부족 문제를 해결하기 위해.
공정성, 메이크스팬 최소화, 비용 인지 스케줄링 등 다양한 스케줄링 정책을 통합하는 프레임워크를 제공함으로써 가속기 성능 이질성을 고려한 일반화된 접근을 가능하게 하기 위해.
자원 활용도와 성능을 향상시키기 위해 공간 공유 및 배치 민감성 최적화를 통합함으로써 이질 환경에서 스케줄링 목표를 향상시키기 위해.
부서 간 공정성과 개별 작업 간 공정성을 균형 잡는 복잡한 계층적 스케줄링 정책을 효율적이고 분석적으로 기반하여 지원하기 위해.
최적의 할당이 물리적 하드웨어에서 실제로 실현될 수 있도록 분리된 라운드 기반 스케줄링 메커니즘을 제공하기 위해.

제안 방법

작업 처리량에 따라 의존하는 목적 함수를 사용하여 스케줄링 정책을 최적화 문제로 수식화함으로써 이질성 인지 최적화를 가능하게 한다.
프로파일링과 행렬 완성 기반의 처리량 추정기로 실시간으로 공동 배치된 작업의 성능을 예측함으로써 정확한 자원 할당 결정을 가능하게 한다.
라운드 기반 스케줄링 메커니즘을 통해 정책 수립과 할당 실행을 분리함으로써 작업이 이상적인 자원 비율을 확보하도록 보장한다.
최적화 모델에 공간 공유 및 배치 민감성을 통합함으로써, 수동적 공유 전략을 넘어서 활용도와 성능 향상을 이룬다.
각각의 최적화 목적 함수로 최대-최소 공정성, 가장 짧은 작업 우선, 최소 메이크스팬, 계층적 공정성 등 다양한 정책을 지원함으로써 최적화 기반 프레임워크의 유연성을 확보한다.
기존 성능 추정 기법(예: Quasar)을 활용하여 온라인에서 누락된 처리량 데이터를 추론함으로써, 동적 워크로드 상황에서도 높은 스케줄링 정확도를 유지한다.

실험 결과

연구 질문

RQ1다양한 가속기 유형과 모델 아키텍처 간 이질성 인지 스케줄링 정책을 체계적으로 일반화할 수 있는가?
RQ2성능 이질성과 공간 공유를 명시적으로 모델링할 경우, 작업 완료 시간과 메이크스팬과 같은 핵심 클러스터 목표에 어떤 영향을 미치는가?
RQ3통합 최적화 기반 프레임워크가 이질적 클러스터에서 다양한 스케줄링 정책(예: 공정성, 비용 최소화, 메이크스팬 최소화)을 얼마나 잘 지원할 수 있는가?
RQ4Gavel의 라운드 기반 할당 메커니즘이 최적의 이질성 인지 할당이 물리적 하드웨어에서 실제로 실현되는 방식은 무엇인가?
RQ5가속기 이질성과 공유 효과를 고려한 스케줄링 결정을 통해 어떤 성능 향상이 달성될 수 있는가?

주요 결과

Gavel는 Gandiva 및 Tiresias와 같은 이질성 간직 스케줄러 대비 평균 작업 완료 시간을 최대 3.5배 향상시킨다.
특히 높은 클러스터 부하 상황에서 이질성 인지 정책 최적화 덕분에 메이크스팬이 최대 2.5배 감소한다.
지연 시간 SLO를 충족하면서 비용을 최소화할 경우, 더 나은 가속기 선택과 작업 공유로 인해 비용 효율성이 1.4배 향상된다.
Gavel에서 공간 공유를 명시적으로 모델링함으로써, Gandiva의 수동적 공유 전략 대비 스케줄링 목표가 최대 2.2배 향상된다.
이질성 간직 스케줄러보다 높은 최대 클러스터 부하를 유지함으로써, 향상된 확장성과 자원 활용도를 입증한다.
처리량 추정기 덕분에 정확한 온라인 성능 예측이 가능해져, 높은 부하 상황에서도 평균 작업 완료 시간이 약간만 감소한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.