QUICK REVIEW

[논문 리뷰] Scheduling Splittable Jobs on Configurable Machines

Cheng Tan, Zhichao Li|arXiv (Cornell University)|2021. 09. 18.

Scheduling and Optimization Algorithms참고 문헌 31인용 수 14

한 줄 요약

이 논문은 NVIDIA A100 GPU에서 다층 신경망(DNN) 추론을 MIG(Multi-Instance GPU) 분할을 활용해 최적화하는 MIG-serving 시스템을 제안한다. 히우리스틱, 유전 알고리즘(GA), 몬테카를로 트리 탐색(MCTS) 알고리즘을 조합하여 서비스 수준 목표(SLO)를 충족하면서도 비용 효율적인 GPU 구성 설정을 도출하며, 기존의 A100 단일 단위 사용 대비 최대 40%까지 GPU 사용량을 감소시킨다.

ABSTRACT

Motivated by modern architectures allowing for the partitioning of a GPU into hardware separated instances, we initiate the study of scheduling splittable jobs on configurable machines. We consider machines that can be configured into smaller instances, which we call blocks, in multiple ways, each of which is referred to as a configuration. We introduce the Configurable Machine Scheduling (cms) problem, where we are given n jobs and a set C of configurations. A schedule consists of a set of machines, each assigned some configuration in C with each block in the configuration assigned to process one job. The amount of a job’s demand that is satisfied by a block is given by an arbitrary function of the job and block. The objective is to construct a schedule using as few machines as possible. We provide a tight logarithmic factor approximation algorithm for this problem in the general setting, a factor (3 + ε) approximation algorithm for arbitrary ε > 0 when there are O(1) input configurations, and a polynomial time approximation scheme when both the number and size of configurations are O(1). Finally, we utilize a technique for finding conic integer combinations in fixed dimension to develop an optimal polynomial time algorithm in the case with O(1) jobs, O(1) blocks, and every configuration up to a given size.

연구 동기 및 목표

MIG 기반 A100 GPU에서 DNN 추론 워크로드를 효율적으로 스케줄링하는 문제를 해결하기 위해, 하드웨어 제약으로 인해 비트리비얼한 분할 결정이 필요한 환경을 고려한다.
재구성 가능한 머신 스케줄링 문제(RMS)를 정의하고 형식화하여 비선형 성능 스케일링, 제한된 분할 규칙, 부분 재구성 기능을 반영한다.
동시에 여러 DNN 모델이 실행되는 환경에서 SLO(처리량 및 지연 시간)를 충족시키기 위해 필요한 GPU 수를 최소화하는 시스템을 설계한다.
구성 업데이트 중에도 서비스 장애 없이 원활하고 투명한 배포 전환을 보장한다.
실제 쿠버네티스 기반 클러스터에서 시스템의 성능과 효율성을 평가하며, 전체 A100을 사용하는 기준 설정과 비교한다.

제안 방법

빠른 그레디 히우리스틱을 통한 초기 배포를 위한 단계적 최적화 파이프라인을 제안하며, 이후 반복적이고 천천인 유전 알고리즘(GA)을 통해 해를 정밀하게 개선한다.
복잡한 구성 공간을 탐색하기 위해 고정밀도 탐색 컴ponent로 몬테카를로 트리 탐색(MCTS)을 통합한다.
SLO 이행 및 GPU 활용도를 기반으로 한 피트니스 함수에 따라 부모 솔루션을 교차 및 돌연변이를 통해 조합하는 맞춤형 유전 알고리즘을 활용한다.
컨트롤러 모듈에서 투명하고 비중단적인 배포 간 전환을 가능하게 하는 새로운 '교환 및 압축' 알고리즘을 구현한다.
쿠버네티스 기반으로 시스템을 구현하여 클러스터 전반에 걸친 MIG 인스턴스의 실시간 스케줄링 및 오케스트레이션을 관리한다.
PyTorch 및 텐서플로 허브에서 49개의 모델에 대한 실험적 벤치마크를 기반으로 각 인스턴스 크기별 DNN 성능을 모델링하며, 비선형 처리량 스케일링을 반영한다.

실험 결과

연구 질문

RQ1MIG 기반 A100 GPU에서 이질적인 DNN 워크로드를 효율적으로 스케줄링하여 GPU 사용량을 최소화하면서도 SLO를 충족시킬 수 있는 방법은 무엇인가?
RQ2기존 스케줄링 알고리즘이 적용되지 않는 MIG 분할의 핵심 제약 조건과 특성은 무엇인가?
RQ3히우리스틱, GA, MCTS를 조합한 하이브리드 알고리즘 파이프라인은 비용 효율성 및 구성 품질 측면에서 기준 설정보다 뛰어나다고 할 수 있는가?
RQ4런타임 재구성 중에 배포 전환이 사용자에게 투명하게 이루어질 수 있는 방법은 무엇인가?
RQ5MIG-serving는 A100을 단일 단위로 사용하는 것에 비해 GPU 포트폴리오를 얼마나 줄일 수 있는가?

주요 결과

MIG-serving는 A100 GPU를 전체 단위로 사용하는 것에 비해 최대 40%까지 GPU 사용량을 감소시키며, 모든 평가된 모델에서 최고의 비용 효율성을 확보한다.
MIG 파artition에 배포된 49개의 다양한 DNN 모델(ResNet-50, BERT-base, BERT-large 포함)에 대해 시스템은 모든 SLO를 성공적으로 충족시킨다.
실제 워크로드 두 개 간의 배포 전환은 30분 이내에 완료되며, 서비스 장애가 관측되지 않는다.
DNN 모델의 MIG 인스턴스에서의 성능은 자원 할당량에 따라 선형적으로 증가하지 않으며, 이는 인스턴스 크기 인식 스케줄링의 필요성을 입증한다.
재구성 가능한 머신 스케줄링 문제(RMS)는 제한된 분할 규칙과 비선형 성능 곡선로 인해 기존 자원 할당 히우리스틱으로는 해결할 수 없는 NP-완전 문제이다.
빠른 히우리스틱과 MCTS 기반 GA의 조합은 시간이 지남에 따라 배포 품질을 크게 향상시키며, 느린 알고리즘이 거의 최적의 구성에 도달한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.