Skip to main content
QUICK REVIEW

[논문 리뷰] Data Driven Optimization of GPU efficiency for Distributed LLM Adapter Serving

Ferran Agullo, Joan Oliveras|arXiv (Cornell University)|2026. 02. 27.
IoT and Edge/Fog Computing인용 수 0
한 줄 요약

이 논문은 Digital Twin과 ML 대리 추정치를 활용해 그리디 어댑터 배치를 안내하고 GPU당 처리량을 극대화하여 워크로드를 처리하는 데 필요한 GPU 수를 최소화하는 데이터 기반 파이프라인을 제시한다.

ABSTRACT

Large Language Model (LLM) adapters enable low-cost model specialization, but introduce complex caching and scheduling challenges in distributed serving systems where hundreds of adapters must be hosted concurrently. While prior work has largely focused on latency minimization, resource efficiency through throughput maximization remains underexplored. This paper presents a data-driven pipeline that, for a given workload, computes an adapter placement that serves the workload with the minimum number of GPUs while avoiding request starvation and GPU memory errors. To that end, the approach identifies the maximum feasible throughput attainable on each GPU by leveraging accurate performance predictions learned from real serving behavior. The proposed pipeline integrates three components: (i) a Digital Twin (DT) tailored to LLM-adapter serving, (ii) a distilled machine learning (ML) model trained on DT-generated data, and (iii) a greedy placement algorithm that exploits ML-based performance estimates to maximize GPU efficiency. The DT emulates real system dynamics with high fidelity, achieving below 5% throughput estimation error while executing up to 90 times faster than full LLM benchmarking across both predictable and unpredictable workloads. The learned ML models further accelerate performance estimation with marginal accuracy degradation, enabling scalable optimization. Experimental results demonstrate that the pipeline substantially improves GPU efficiency by reducing the number of GPUs required to sustain target workloads. Beyond GPU efficiency, the pipeline can be adapted to alternative objectives, such as latency minimization, highlighting its versatility for future large-scale LLM serving infrastructures.

연구 동기 및 목표

  • 분산 LLM 서비스에서 어댑터 캐싱 문제를 동기 부여하고 형식화하여 GPU당 처리량을 극대화하면서 기아 현상과 메모리 오류를 피한다.
  • 디지털 트윈, ML 모델, 그리고 그리디 배치 알고리즘을 통합하여 효율적인 어댑터 할당을 계산하는 데이터 기반 파이프라인을 제안한다.
  • 이 파이프라인이 대상 워크로드에 필요한 GPU를 줄이고 지연 최소화와 같은 다른 목표에도 적응 가능함을 입증한다.
  • LLM-어댑터 서비스에서 지배적인 오버헤드에 대한 실행 가능한 통찰과 실용적인 구성 가이드를 제공한다.

제안 방법

  • 고려하는 접근은 세 단계의 파이프라인이다: 고충실도이자 빠른 오프라인 시뮬레이션을 위한 디지털 트윈(DT); DT 데이터로부터 성능 예측기를 학습하는 ML 단계; ML 추정치를 사용해 어댑터를 배치하고 GPU당 A_max를 설정하는 그리디 어댑터 캐싱 알고리즘의 세 단계 파이프라인을 도입한다.
  • DT에서 네 가지 예측 구성요소를 모델링한다: Mem_max(메모리 기반 배치 한계), Lat_sched(스케줄링 지연), Lat_load(어댑터 로딩 지연), Lat_model(백본 plus 어댑터 오버헤드 지연).
  • DT가 생성한 특징으로 두 개의 ML 모델(처리량 회귀모형과 기아/ starvation 분류기)을 학습한다.
  • 정제 단계를 적용하여 트리 기반 모델을 최적화된 Python/Numba 코드로 구현된 단일 해석 가능한 의사결정 트리로 distill한다.
  • 어댑터 캐싱 문제를 이진 포장(bin packing)의 변형으로 보고 ML로 예측된 처리량과 기아 위험을 안내하도록 First-Fit Decreasing 알고리즘을 사용해 배치를 해결한다.

실험 결과

연구 질문

  • RQ1주어진 이기종 LLM-어댑터 워크로드를 기아 현상이나 메모리 오류를 일으키지 않으면서 서비스하는 데 필요한 GPU 수를 어떻게 최소화할 수 있는가?
  • RQ2디지털 트윈이 LLM-어댑터 서비스 역학을 높은 충실도로 모의하고 ML 모델용 데이터 생성을 가속화할 수 있는가?
  • RQ3다양한 어댑터 구성과 A_max 설정에 대해 처리량과 기아 위험 예측의 정확도는 얼마나 되는가?
  • RQ4데이터 기반 파이프라인이 이질적 워크로드와 프레임워크(vLLM + LoRA, S-LoRA 등)에 대해 일반화되어 GPU 효율성을 개선할 수 있는가?

주요 결과

  • 파이프라인은 대상 워크로드를 유지하기 위한 GPU 수를 감소시킴으로써 GPU 효율성을 크게 향상시킨다.
  • 디지털 트윈은 처리량 추정 오차를 5% 미만으로 달성하고 전체 LLM 벤치마크 대비 최대 90배 빠르게 실행된다.
  • ML 예측기는 확장 가능한 성능 추정으로 약간의 정확도 저하를 허용하며, 그리디 배치가 Max_pack에 근접하도록 유도한다.
  • 이 접근법은 네 가지 주요 오버헤드(메모리 사용, 연산, 로딩 시간, 스케줄러 오버헤드)를 설명하고 실행 가능한 구성 가이드를 제공한다.
  • LoRA 어댑터를 사용하는 vLLM 실험은 프레임워크가 지연 최소화 등 다양한 목표에 적응할 수 있는 잠재력을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.