[논문 리뷰] Dynamic Space-Time Scheduling for GPU Inference
이 논문은 다중 테넌트 온라인 추론 환경에서 GPU 활용도를 햖을 수 있도록, 여러 DNN 모델의 추론 커널을 융합하는 동적 스페이스-타임 스케줄러를 제안한다. 다양한 모델 커널을 단일 슈퍼커널 호출로 배치함으로써, 시간 기반 다중화 대비 최대 7.73배 높은 부동소수점 처리량과 공간 기반 다중화 대비 3.23배 높은 성능을 달성하면서도 지연 시간 예측 가능성과 성능 격리 보장을 확보한다.
Serving deep neural networks in latency critical interactive settings often requires GPU acceleration. However, the small batch sizes typical in online inference results in poor GPU utilization, a potential performance gap which GPU resource sharing can address. In this paper, we explore several techniques to leverage both temporal and spatial multiplexing to improve GPU utilization for deep learning inference workloads. We evaluate the performance trade-offs of each approach with respect to resource-efficiency, latency predictability, and isolation when compared with conventional batched inference. Our experimental analysis suggests up to a 5x potential for improved utilization through the exploration of more advanced spatial and temporal multiplexing strategies. Our preliminary prototype of a dynamic space-time scheduler demonstrates a 3.23x floating-point throughput increase over space-only multiplexing and a 7.73x increase over time-only multiplexing for convolutions, while also providing better isolation and latency predictability.
연구 동기 및 목표
- 작은 배치 크기와 변동성이 큰 워크로드로 인한 온라인 DNN 추론에서 낮은 GPU 활용도 문제를 해결한다.
- 기존의 공간 기반 또는 시간 기반 단일 다중화 방식의 한계를 극복하여 자원 효율성, 예측 가능성 또는 격리 성능을 향상시킨다.
- GPU 가속 추론 워크로드에 대해 효율적이고 예측 가능하며 격리된 다중 테넌시를 지원하는 스케줄러를 설계한다.
- 실제 다중 테넌시 GPU 추론 환경에서 자원 효율성, 지연 시간 예측 가능성, 격리 성능 간의 상호 교환 관계를 평가한다.
제안 방법
- 다양한 DNN 모델의 커널 호출을 단일 슈퍼커널 실행으로 통합하는 소프트웨어 기반 동적 스케줄러를 구현한다.
- MAGMA BLAS 라이브러리를 활용해 입력 크기가 다른 다양한 모델의 SGEMM 연산을 하나의 배치 커널로 융합하는 모델 간 배치를 사용한다.
- 고정 크기 문제에 대해서는 NVIDIA의 cuBLAS 배치 GEMM 기능을 활용하고, 이에 대해 비정형 크기의 배치로 확장하여 이질적인 모델에 대응한다.
- 모델별 서비스 수준 목표(SLO)를 기반으로 워크로드를 스케줄링하여 지연 시간과 처리량을 균형 잡는 동적 배치 결정을 수행한다.
- 각 GPU 시간 슬라이스 동안 GPU 자원 활용도를 극대화하기 위해 상호 연결되지 않은 DNN 계산 그래프 간 커널 융합을 적용한다.
- 통제된 조건 하에서 대표적인 DNN 레이어(예: ResNet-18 conv2_2)와 행렬 곱셈 유형(RNN, 정방형, 컨볼루션 레이어)을 대상으로 성능을 측정한다.
실험 결과
연구 질문
- RQ1동적 스페이스-타임 다중화가 공간 기반 또는 시간 기반 스케줄링을 초월하여 온라인 DNN 추론에서 GPU 활용도를 향상시킬 수 있는가?
- RQ2모델 간 커널 배치는 다중 테넌시 GPU 추론 환경에서 지연 시간 예측 가능성과 성능 격리에 어떤 영향을 미치는가?
- RQ3기존의 배치 기반 추론 및 다중화 기법 대비 동적 스페이스-타임 스케줄러의 처리량 향상 수준은 어떠한가?
- RQ4다른 입력 크기와 가중치를 가진 모델 간 커널 융합이 현대 GPU에서 자원 효율성을 얼마나 향상시킬 수 있는가?
- RQ5인터랙티브 추론 시스템에서 흔히 발생하는 변동성과 확률적인 워크로드 조건에서도 제안된 스케줄러가 예측 가능한 성능을 유지하는가?
주요 결과
- 동적 스페이스-타임 스케줄러는 ResNet-18 컨볼루션 레이어에서 공간 기반 다중화 대비 3.23배, 시간 기반 다중화 대비 7.73배 높은 부동소수점 처리량을 달성한다.
- 행렬 곱셈 워크로드에서, 2~120개의 동시 모델을 대상으로 평균적으로 공간 기반 다중화 대비 4.93배 높은 처리량 향상을 달성한다.
- 슈퍼커널 기반의 모델 간 커널 배치를 통해 공간적 및 시간적 다중화 효율성이 향상되어 GPU 자원의 비활성화를 줄이고 활용도를 높인다.
- 기존 방법에 비해 더 뛰어난 지연 시간 예측 가능성과 성능 격리를 확보하며, 고변동성과 간섭 문제를 악화시키는 경향이 있는 기존 기법들과 대비된다.
- 처리량 스케일링이 크게 향상된다: 예를 들어 RNN 행렬-벡터 연산에서 2.48배의 성능 향상과 공간 기반 다중화 대비 ResNet-18 conv2_2 레이어에서 3.23배의 성능 향상을 기록한다.
- 기존의 배치 기반 추론과 고도화된 다중화 간에 뚜렷한 성능 격차가 존재함을 입증하며, 추론 워크로드에서 GPU 활용도 잠재력이 여전히 크게 남아 있음을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.