Skip to main content
QUICK REVIEW

[논문 리뷰] DynamoLLM: Designing LLM Inference Clusters for Performance and Energy Efficiency

Jovan Stojkovic, Chaojie Zhang|arXiv (Cornell University)|2024. 08. 01.
Advanced Data Storage Technologies인용 수 5
한 줄 요약

DynamoLLM은 에너지 관리 프레임워크로서 요청 유형별 풀, 모델 병렬성, GPU 주파수를 사용하여 SLO를 충족하면서 에너지, 탄소 배출, 비용을 줄이기 위해 LLM 추론 클러스터를 동적으로 재구성합니다.

ABSTRACT

The rapid evolution and widespread adoption of generative large language models (LLMs) have made them a pivotal workload in various applications. Today, LLM inference clusters receive a large number of queries with strict Service Level Objectives (SLOs). To achieve the desired performance, these models execute on power-hungry GPUs causing the inference clusters to consume large amount of energy and, consequently, result in excessive carbon emissions. Fortunately, we find that there is a great opportunity to exploit the heterogeneity in inference compute properties and fluctuations in inference workloads, to significantly improve energy-efficiency. However, such a diverse and dynamic environment creates a large search-space where different system configurations (e.g., number of instances, model parallelism, and GPU frequency) translate into different energy-performance trade-offs. To address these challenges, we propose DynamoLLM, the first energy-management framework for LLM inference environments. DynamoLLM automatically and dynamically reconfigures the inference cluster to optimize for energy and cost of LLM serving under the service's performance SLOs. We show that at a service-level, DynamoLLM conserves 53% energy and 38% operational carbon emissions, and reduces 61% cost to the customer, while meeting the latency SLOs.

연구 동기 및 목표

  • 전력 밀집 GPU에서 실행되는 현대 LLM 추론 클러스터의 에너지 비효율 문제를 강조한다.
  • LLM 추론에서 이질성 및 워크로드 변동성을 특성화하여 최적화 기회를 식별한다.
  • 에너지 절약 구성으로 SLO 제약 하에 에너지 효율적인 구성을 선택하는 자동적이고 동적인 에너지 관리 프레임워크(DynamoLLM)를 설계한다.
  • 서비스 품질을 희생하지 않으면서 변화하는 수요에 적응하기 위해 빈번하고 낮은 오버헤드의 재구성을 가능하게 한다.
  • 대형 클라우드 제공자의 실제 운영 트레이스에서 확장성과 효과를 입증한다.

제안 방법

  • 다양한 모델, 요청 길이, 병렬성(TP2/TP4/TP8), 및 GPU 주파수에 대해 LLM의 에너지-성능을 프로파일링한다.
  • 인스턴스 수, 병렬성, 주파수를 선택하기 위한 MILP 최적화로 SLO 하에서 에너지 최소화를 공식화한다.
  • 다른 시간 규모에서 작동하는 클러스터, 풀, 인스턴스 컨트롤러의 계층으로 최적화를 분해한다.
  • 입력/출력 길이 및 모델 특성의 이질성을 활용하고 단편화를 줄이기 위해 요청 유형별 풀을 유지한다.
  • 재구성에 대한 오버헤드 모델을 포함하고 (캐싱, 백그라운드 프로비저닝, NVLink 전송 등) 저오버헤드 재구성 기술을 적용한다.

실험 결과

연구 질문

  • RQ1요청 유형, 모델 및 SLO에 걸친 LLM 추론 에너지-performace 프로필은 얼마나 이질적인가?
  • RQ2LLM 서비스에 대해 자동 클러스터 관리 프레임워크가 지연 SLO를 만족하면서 에너지와 비용을 줄일 수 있는가?
  • RQ3재구성(확장, 샤딩, 주파수 변경)의 오버헤드는 무엇이며 이를 어떻게 최소화할 수 있는가?
  • RQ4계층적 제어 설계가 허용 가능한 오버헤드로 동적 워크로드에 신뢰성 있게 적응하는가?
  • RQ5생산 환경과 유사한 트레이스가 DynamoLLM 하에서 상당한 에너지 및 탄소 감소를 보여주면서 서비스 수준 목표를 유지하는가?

주요 결과

  • DynamoLLM은 기준 구성과 비교하여 에너지를 53% 절약합니다.
  • DynamoLLM은 운영 탄소 배출량을 38% 감소시킵니다.
  • DynamoLLM은 지연 SLO를 충족하면서 고객 비용을 61% 낮춥니다.
  • 동적이며 요청 유형별 풀과 계층적 제어가 다양한 워크로드와 SLO 하에서 에너지 효율적으로 작동하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.