QUICK REVIEW

[논문 리뷰] AlpaServe: Statistical Multiplexing with Model Parallelism for Deep Learning Serving

Zhuohan Li, Lianmin Zheng|ArXiv.org|2023. 02. 22.

Cloud Computing and Resource Management인용 수 20

한 줄 요약

AlpaServe는 대규모 딥러닝 모델의 컬렉션을 클러스터 전체에 자동으로 분할하고 배치하여 모델 파레럴리즘을 활용해 통계적 다중화와 급격한 워크로드에서의 SLO 달성을 개선한다.

ABSTRACT

Model parallelism is conventionally viewed as a method to scale a single large deep learning model beyond the memory limits of a single device. In this paper, we demonstrate that model parallelism can be additionally used for the statistical multiplexing of multiple devices when serving multiple models, even when a single model can fit into a single device. Our work reveals a fundamental trade-off between the overhead introduced by model parallelism and the opportunity to exploit statistical multiplexing to reduce serving latency in the presence of bursty workloads. We explore the new trade-off space and present a novel serving system, AlpaServe, that determines an efficient strategy for placing and parallelizing collections of large deep learning models across a distributed cluster. Evaluation results on production workloads show that AlpaServe can process requests at up to 10x higher rates or 6x more burstiness while staying within latency constraints for more than 99% of requests.

연구 동기 및 목표

메모리 한계를 넘는 여러 대형 모델의 서비스에 대해 모델 파레럴리즘의 사용을 동기부여하고 분석한다.
지연 민감한 서비스에서 모델-병렬 오버헤드와 통계적 다중화 이점 간의 트레이드오프를 특징짓는다.
클러스터 전반에 걸쳐 여러 모델을 자동으로 분할, 배치 및 스케줄링하여 SLO 달성을 최대화하는 알고리즘을 개발한다.

제안 방법

향방전파에 집중하여 Autoparallelization(Alpa 기반)을 서빙에 확장하고 최대 단계 지연을 최소화한다.
장치 그룹 간 모델 복제, 그룹화 및 모델-병렬 구성을 최적화하기 위한 두 수준의 시뮬레이터-가이드 탐욕적 배치 알고리즘을 개발한다.
서빙 워크로드에 대한 후보 병렬 구성들을 열거하기 위해 인터-연산의 DP 기반 분석과 인트라-연산의 ILP 기반 분석을 활용한다.
예측된 워크로드 패턴에서 SLO 달성을 추정하고 배치 결정을 안내하기 위해 시뮬레이터를 통합한다.
가중치 동기화가 필요 없는 추론 워크로드에 맞춘 교육 지향 자동병렬화에 대한 확장을 제공합니다.

실험 결과

연구 질문

RQ1다중 모델 워크로드에서 모델 파레럴리즘이 서빙 지연 및 SLO 달성을 개선하는 조건은 무엇인가?
RQ2버스트리 요청하에서 SLO 달성을 최대화하기 위해 클러스터를 어떻게 분할하고 어떤 모델을 동시 위치시키거나 복제해야 하는가?
RQ3서빙에서 인터-오프와 인트라-오프 병렬화의 오버헤드는 무엇이며, 이것들이 배치 결정에 어떤 영향을 미치는가?
RQ4구성 공간의 자동 가지치기가 고성능의 모델-병렬 서빙 전략을 효과적으로 식별할 수 있는가?

주요 결과

모델 파레럴리즘은 장치 간 통계적 다중화를 가능하게 하여 평균 지연을 감소시키고 버스트 허용성을 증가시키며, 특히 메모리가 제한되거나 워크로드가 버스트일 때 그렇다.
버스트성(CV가 높은) 도착일 때, 두 모델, 두 GPU 구사에서 평균 지연에서 최대 1.9배의 속도향상을 달성할 수 있다.
모델 파레럴리즘은 SLO가 촉박한 경우 SLO 위반을 줄일 수 있지만, 여유로운 SLO의 경우 오버헤드로 인해 복제를 넘어설 수 있다.
인터-오프 병렬화의 오버헤드는 주로 스테이지 불균형 때문이고, 인트라-오프 오버헤드는 장치 간 통신이 지배적이지만, 둘 다 처리량과 지연에 서로 다르게 영향을 준다.
시뮬레이터-가이드 탐욕적 배치 알고리즘은 클러스터 전역에서 모델 복제본과 그룹을 최적 배치 및 구성하여 높은 SLO 달성률(대개 >98%)에 도달할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.