QUICK REVIEW

[논문 리뷰] DL2: A Deep Learning-driven Scheduler for Deep Learning Clusters

Yanghua Peng, Yixin Bao|arXiv (Cornell University)|2019. 09. 13.

IoT and Edge/Fog Computing참고 문헌 47인용 수 23

한 줄 요약

DL2는 딥러닝 클러스터에서 자원 할당을 동적으로 조정하고 평균 작업 완료 시간을 최소화하기 위해 오프라인 지도 학습과 온라인 강화 학습을 결합한 딥러닝 기반 스케줄러를 제안한다. 실시간 피드백과 정책 정련을 통해 DRF 및 Optimus 스케줄러 대비 각각 44.1%와 17.5% 빠른 훈련 완료 시간을 달성한다.

ABSTRACT

More and more companies have deployed machine learning (ML) clusters, where deep learning (DL) models are trained for providing various AI-driven services. Efficient resource scheduling is essential for maximal utilization of expensive DL clusters. Existing cluster schedulers either are agnostic to ML workload characteristics, or use scheduling heuristics based on operators' understanding of particular ML framework and workload, which are less efficient or not general enough. In this paper, we show that DL techniques can be adopted to design a generic and efficient scheduler. DL2 is a DL-driven scheduler for DL clusters, targeting global training job expedition by dynamically resizing resources allocated to jobs. DL2 advocates a joint supervised learning and reinforcement learning approach: a neural network is warmed up via offline supervised learning based on job traces produced by the existing cluster scheduler; then the neural network is plugged into the live DL cluster, fine-tuned by reinforcement learning carried out throughout the training progress of the DL jobs, and used for deciding job resource allocation in an online fashion. By applying past decisions made by the existing cluster scheduler in the preparatory supervised learning phase, our approach enables a smooth transition from existing scheduler, and renders a high-quality scheduler in minimizing average training completion time. We implement DL2 on Kubernetes and enable dynamic resource scaling in DL jobs on MXNet. Extensive evaluation shows that DL2 outperforms fairness scheduler (i.e., DRF) by 44.1% and expert heuristic scheduler (i.e., Optimus) by 17.5% in terms of average job completion time.

연구 동기 및 목표

정적 및 히ュ리스틱 기반 스케줄러가 동적인 워크로드 특성에 적응하지 못해 발생하는 비효율성을 해결한다.
합성 시뮬레이터 대신 실세계 클러스터 운영에서의 실시간 피드백을 활용해 시뮬레이션 기반 강화 학습의 한계를 극복한다.
기존 스케줄러의 역사적 스케줄링 결정을 신경망의 미사전학습 신호로 활용하여 기존 시스템으로의 원활한 전환을 가능하게 한다.
지도 학습 기반 사전학습과 온라인 강화 학습을 융합한 하이브리드 학습 접근법을 통해 평균 작업 완료 시간을 최소화한다.
명시적 성능 모델링이나 머신러닝 프레임워크에 대한 깊은 전문 지식에 의존하지 않는 일반화된, 프레임워크에 종속되지 않는 스케줄러를 설계한다.

제안 방법

기존 클러스터 스케줄러의 역사적 작업 트레이스와 스케줄링 결정 데이터를 기반으로 오프라인 지도 학습을 통해 신경망을 사전학습시켜 기초 성능을 확보한다.
사전학습된 모델을 실시간 자원 할당 결정을 내려야 하는 실세계 Kubernetes 기반 딥러닝 클러스터에 배포한다.
실제 작업 훈련 진행 상황에서의 피드백을 활용해 온라인 강화 학습을 통해 신경망을 미세조정하며, 평균 작업 완료 시간 최소화를 목표로 한다.
자원 할당 결정의 고차원적 행동 공간을 효율적으로 탐색하기 위해 작업 인식 탐색 기법을 도입하여 학습 수렴을 향상시킨다.
다중 멀티테넌트 환경에서의 동적 변화에 대응하기 위해 훈련 안정성과 정책 최적화 성능을 향상시키기 위해 액터-크리틱 딥 강화 학습 프레임워크를 활용한다.
작업 수준의 지표(예: 손실, 정확도, 자원 사용량)와 클러스터 수준의 자원 가용성을 포함한 입력 상태 표현 방식을 설계하여 정보 기반 의사결정을 가능하게 한다.

실험 결과

연구 질문

RQ1실세계 클러스터 피드백을 기반으로 훈련된 딥 강화 학습 모델이 DRF 및 Optimus와 같은 전통적 스케줄러보다 평균 작업 완료 시간을 줄이는 데 더 우수한 성능을 보일 수 있는가?
RQ2오프라인 지도 미사전학습이 기존 스케줄러에서의 원활한 전환을 가능하게 하고, 온라인 강화 학습 초기 단계에서 열악한 결정을 피하는 데 얼마나 효과적인가?
RQ3작업 인식 탐색이 동적 자원 할당의 고차원 행동 공간에서 수렴성과 성능 향상에 얼마나 기여하는가?
RQ4명시적 성능 모델링이나 프레임워크 전용 히ュ리스틱에 의존하지 않는 일반화된 블랙박스 딥러닝 스케줄러가 효과적인가?
RQ5실제 훈련 작업에서의 실시간 피드백 통합이 시뮬레이션 기반 훈련 대비 스케줄링 정책의 확장성과 강건성에 어떤 영향을 미치는가?

주요 결과

DL2는 공정성 기반 DRF 스케줄러 대비 평균 작업 완료 시간을 44.1% 감소시켜 자원 효율성 향상에서 뚜렷한 성과를 보였다.
DL2는 전문 히ュ리스틱 기반 Optimus 스케줄러 대비 평균 작업 완료 시간을 17.5% 향상시켜 수작업으로 설계된 스케줄링 규칙보다 뛰어난 성능을 입증했다.
오프라인 지도 미사전학습과 온라인 강화 학습의 조합은 순수한 온라인 강화 학습보다 더 빠른 수렴 속도와 고급 수준의 스케줄링 정책을 가능하게 했다.
작업 인식 탐색의 활용은 행동 공간 내 학습 효율성을 크게 향상시켜 초기 훈련 단계에서 열악한 결정의 위험을 줄였다.
학습 수렴 속도가 클러스터 수와 거의 선형적으로 증가함을 확인하여, 더 큰 규모의 구현 환경에서 정책 학습 속도 향상이 가능하다는 점을 시사한다.
이 접근법은 일반화 가능하며, 최소한의 아키텍처 수정으로 모든-감소 아키텍처와 작업 배치 결정을 지원하는 데도 확장 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.