[논문 리뷰] Analysis of Large-Scale Multi-Tenant GPU Clusters for DNN Training Workloads
본 논문은 대규모 Microsoft 다중 테넌트 GPU 클러스터를 분석하여 지역성(locality), 스케줄링, 실패가 DNN 학습에 미치는 영향을 이해하고, 차세대 스케줄러를 위한 설계 지침을 제시한다.
With widespread advances in machine learning, a number of large enterprises are beginning to incorporate machine learning models across a number of products. These models are typically trained on shared, multi-tenant GPU clusters. Similar to existing cluster computing workloads, scheduling frameworks aim to provide features like high efficiency, resource isolation, fair sharing across users, etc. However Deep Neural Network (DNN) based workloads, predominantly trained on GPUs, differ in two significant ways from traditional big data analytics workloads. First, from a cluster utilization perspective, GPUs represent a monolithic resource that cannot be shared at a fine granularity across users. Second, from a workload perspective, deep learning frameworks require gang scheduling reducing the flexibility of scheduling and making the jobs themselves inelastic to failures at runtime. In this paper we present a detailed workload characterization of a two-month long trace from a multi-tenant GPU cluster in a large enterprise. By correlating scheduler logs with logs from individual jobs, we study three distinct issues that affect cluster utilization for DNN training workloads on multi-tenant clusters: (1) the effect of gang scheduling and locality constraints on queuing, (2) the effect of locality on GPU utilization, and (3) failures during training. Based on our experience running a large-scale operation, we provide design guidelines pertaining to next-generation cluster schedulers for DNN training workloads.
연구 동기 및 목표
- Gang 스케줄링과 지역성 제약이 DNN 학습에 사용되는 대규모 다중 임차 GPU 클러스터의 대기 시간과 활용도에 어떤 영향을 미치는지 특징화한다.
- GPU 지역성, 서버 수준 간섭, 코로케이션이 GPU 활용도와 학습 효율성에 어떤 영향을 미치는지 평가한다.
- DNN 학습 워크로드에서 일반적인 실패 모드를 식별하고 이것이 클러스터 활용도 및 재시도 정책에 미치는 영향을 파악한다.
- DNN 워크로드에서 지역성, 격리성 및 조기 실패 탐지를 향상시키기 위한 차세대 클러스터 스케줄러 설계 지침을 제공한다.
제안 방법
- Microsoft 다중 테넌트 GPU 클러스터(Philly)의 약 2개월 간 추적 데이터를 분석하고 ~100,000개의 작업과 14개의 가상 클러스터를 포함한다.
- 스케줄러 로그(YARN)를 작업별 로그 및 Ganglia 활용 데이터와 상관분석하여 지역성, 대기 및 실패를 연구한다.
- 대기 지연을 공정할당(fair-share)과 단편화(fragmentation) 구성요소로 특징화하고 GPU 수에 따른 의존성을 분석한다.
- 다른 배치 시나리오(same-server, diff-server, intra-/inter-server)에서 GPU 및 호스트 리소스 활용도를 평가한다.
- Philly를 다른 스케줄러와 비교하고 DNN 워크로드에서 지역성 인지 스케줄링을 위한 실용적 설계 지침을 제공한다.
실험 결과
연구 질문
- RQ1지역성 제약과 Gang 스케줄링이 DNN 학습 작업의 대기 지연에 어떤 영향을 미치는가?
- RQ2지역성 인지 스케줄링이 분산된 다중 GPU 작업에서 GPU 활용도 및 학습 성능에 어떤 영향을 미치는가?
- RQ3대규모 다중 테넌트 DNN 학습 클러스터에서 작업 실패의 주요 원인은 무엇이며 이것이 활용도에 어떻게 영향을 미치는가?
- RQ4Fragmentation, 간섭, 실패를 완화하여 활용도와 성능을 향상시킬 수 있는 스케줄러 설계 선택은 무엇인가?
주요 결과
- 대기 지연은 지역성과 영향을 받으며 지역성을 완화하면 지연이 감소한다. 특히 4개 GPU 이상 큰 작업에서 두드러진다.
- 사용 중인 GPU의 평균 하드웨어 활용도는 약 52%에 불과하며, 동기화 및 간섭으로 인해 더 큰 작업에서 과소활용이 증가한다.
- 다수의 작업에서 단편화(delays due to fragmentation)가 대기 시간을 지배하며, 특히 5–8 GPU 및 그 이상 구성에서 두드러진다; 할당량이 소진될 때 공정할당(fair-share) 지연이 발생한다.
- 약 30%의 작업이 실패하거나 종료되지만, 이들 역시 GPU 시간의 상당 부분을 차지하여 실패로 인한 비효율성을 강조한다.
- 다중 서버에 걸친 분산 학습은 RDMA/PCIe 경쟁 및 서버 간 통신 오버헤드로 인해 GPU 활용도를 감소시키며, 동일 서버에 배치된 작업은 활용도를 더욱 저하시킨다.
- 대다수의 통과된 작업은 최적의 손실에 도달하기 위해 거의 모든 에포크를 필요로 하며, 이는 GPU 시간을 절약하기 위한 조기 종료 기회를 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.