QUICK REVIEW

[논문 리뷰] Job scheduling on data centers with deep reinforcement learning

Sisheng Liang, Zhou Yang|arXiv (Cornell University)|2019. 09. 15.

Cloud Computing and Resource Management참고 문헌 10인용 수 1

한 줄 요약

이 논문은 이질적인 데이터 센터에서 작업 스케줄링을 최적화하기 위해 이점 운동가치 기반 강화학습(A2C)에 기반한 A2cScheduler를 제안한다. 두 개의 에이전트인 운동가치자(Actor)와 평가자(Critic)를 사용하여 기울기 분산을 감소시키고 학습 효율성을 향상시킨다. 이는 시뮬레이션 및 실제 워크로드 모두에서 경쟁 가능한 성능을 달성한다.

ABSTRACT

Efficient job scheduling on data centers under heterogeneous complexity is crucial but challenging since it involves the allocation of multi-dimensional resources over time and space. To adapt the complex computing environment in data centers, we proposed an innovative Advantage Actor-Critic (A2C) deep reinforcement learning based approach called A2cScheduler for job scheduling. A2cScheduler consists of two agents, one of which, dubbed the actor, is responsible for learning the scheduling policy automatically and the other one, the critic, reduces the estimation error. Unlike previous policy gradient approaches, A2cScheduler is designed to reduce the gradient estimation variance and to update parameters efficiently. We show that the A2cScheduler can achieve competitive scheduling performance using both simulated workloads and real data collected from an academic data center.

연구 동기 및 목표

이질적이고 다차원적인 자원 요구를 가진 데이터 센터에서 효율적인 작업 스케줄링 문제를 해결한다.
기존 정책 기반 강화학습 방법의 한계를 극복하기 위해 스케줄링 정책 학습 시 기울기 추정 분산을 줄인다.
복잡한 컴퓨팅 환경에서 시간과 공간에 걸쳐 자원을 동적으로 할당하는 확장성 있고 적응 가능한 스케줄링 프레임워크를 설계한다.
수작업 히ュ리스틱에 의존하지 않고 종단 간 딥 강화학습을 통해 스케줄링 효율성과 시스템 성능을 향상시킨다.

제안 방법

운동가치자(Actor)가 스케줄링 정책을 학습하고 평가자(Critic)가 가치 함수를 추정하여 정책 기울기 분산을 줄이는 두 개의 별도 에이전트를 사용하는 이점 운동가치 기반 강화학습(A2C) 프레임워크를 적용한다.
평가자의 가치 함수를 사용하여 이점 신호를 계산함으로써 표준 정책 기반 강화학습 방법보다 더 안정적이고 효율적인 정책 업데이트를 가능하게 한다.
장기적인 스케줄링 목표를 최적화하기 위해 시간 차이 학습을 사용하여 운동가치자-평가자 네트워크를 종단 간으로 학습시킨다.
효과적인 상태-행동 가치 추정을 위해 다차원 자원 사용 및 작업 특성을 표현하는 상태 표현 방식을 설계한다.
샘플 효율성을 향상시키고 동적 데이터 센터 환경에서의 학습 속도를 가속화하기 위해 경험 재생과 병렬 롤아웃을 적용한다.
이점 기반 신용 할당을 사용하여 확률적 경사 하강법으로 정책을 최적화함으로써 수렴성과 안정성을 향상시킨다.

실험 결과

연구 질문

RQ1A2C 기반 딥 강화학습 접근법은 이질적인 데이터 센터 환경에서 기존 스케줄링 히ュ리스틱보다 우수한 성능을 내는가?
RQ2A2C 아키텍처는 표준 정책 기반 강화학습 방법과 비교해 스케줄링 작업에서 기울기 분산을 어떻게 줄이고 학습 안정성을 향상시키는가?
RQ3제안된 A2cScheduler는 다양한 워크로드, 특히 실제 데이터 센터 트레이스를 포함하여 얼마나 잘 일반화되는가?
RQ4운동가치자-평가자 설계는 스케줄링 정책 학습 과정에서 탐색과 이용의 균형을 얼마나 효과적으로 유지하는가?
RQ5평가자의 가치 추정은 스케줄링 정책의 수렴성과 성능에 어떤 영향을 미치는가?

주요 결과

A2cScheduler는 시뮬레이션 워크로드와 학술 데이터 센터에서 수집한 실제 데이터 모두에서 경쟁 가능한 스케줄링 성능을 달성한다.
표준 정책 기반 강화학습 방법과 비교해 A2C 기반 접근법이 기울기 추정 분산을 줄여 더 안정적이고 효율적인 학습을 가능하게 한다.
이중 에이전트 아키텍처는 복잡한 스케줄링 환경에서 효과적인 정책 학습을 가능하게 하며 수렴 속도와 안정성을 향상시킨다.
이 방법은 이질적인 작업 및 자원 특성을 가진 다양한 워크로드 패턴에 대해 강력한 일반화 성능를 보여준다.
평가자의 가치 추정은 정책 업데이트 품질을 크게 향상시켜 더 나은 장기적인 스케줄링 결과를 기여한다.
실제 트레이스에서의 성능를 통해 기준 방법 대비 스케줄링 효율성과 자원 활용도에서 뛰어난 성능을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.