Skip to main content
QUICK REVIEW

[논문 리뷰] MoEless: Efficient MoE LLM Serving via Serverless Computing

Hanfei Yu, Bei Ouyang|arXiv (Cornell University)|2026. 03. 06.
IoT and Edge/Fog Computing인용 수 0
한 줄 요약

MoEless는 MoE 전문가를 분리하고 계층 인지 예측, 확장 및 배치를 사용하여 대기 시간과 비용을 줄이는 최초의 서버리스 MoE 서빙 프레임워크입니다.

ABSTRACT

Large Language Models (LLMs) have become a cornerstone of AI, driving progress across diverse domains such as content creation, search and recommendation systems, and AI-assisted workflows. To alleviate extreme training costs and advancing model scales, Mixture-of-Experts (MoE) has become a popular backbone for modern LLMs, which are commonly served in distributed deployment using expert parallelism (EP). However, MoE's sparse activation mechanism leads to severe expert load imbalance, where a few experts become overloaded while others remain idle, resulting in expert stragglers that inflate inference latency and serving cost. Existing expert load balancing solutions assume static resource configurations on serverful infrastructures, limiting expert scalability and elasticity, and resulting in either costly real-time expert swapping or degraded generation quality. We present MoEless, the first serverless MoE serving framework that mitigates expert load imbalance and accelerates inference via serverless experts. MoEless employs lightweight, layer-aware predictors to accurately estimate incoming expert load distributions and proactively identify stragglers. We design optimized expert scaling and placement strategies to maximize function locality, improve GPU utilization, and balance loads across experts and GPUs. MoEless is prototyped on top of Megatron-LM and deployed on an eight-GPU testbed. Experiments with open-source MoE models and real-world workloads show that MoEless reduces inference latency by 43% and inference cost by 84% compared to state-of-the-art solutions.

연구 동기 및 목표

  • MoE 서비스에서 전문가 부하 불균형을 완화하여 추론 대기 시간을 줄인다.
  • MoE 모델을 위한 서버리스 컴퓨팅을 통해 탄력적 전문가 확장성을 가능하게 한다.
  • 서버리스 전문가 실행을 통해 MoE 추론 비용을 최소화한다.
  • 정확한 부하 추정, 확장 및 배치를 위한 예측기와 전략을 개발한다.
  • 실제 MoE 모델과 워크로드에서 성능 향상을 입증한다.

제안 방법

  • MoE 전문가를 모델에서 분리하고 비전문 모듈은 데이터 병렬성으로 유지하되 독립 서버리스 함수로 패키징한다.
  • 다음 예측 로드를 추정하고 배치 단위의 느려짐을 식별하기 위해 경량화된 레이어 인지 예측기를 설계한다.
  • 예측 로드와 대기 시간 목표에 따라 복제 수를 조정하는 Expert Scaling을 구현한다.
  • GPU 할당을 최적화하고 기능 로컬리티 및 GPU 활용도를 극대화하기 위한 Expert Placement를 개발한다.
  • 각 레이어의 부하를 복제 간에 고르게 분배하여 작업 부하를 균형 있게 처리하고 느려짐을 제거하는 추론을 수행한다.
  • Megatron-LM에서 프로토타입을 만들고 실제 트레이스와 세 개의 MoE 모델로 8-GPU 하드웨어에서 평가한다.
Figure 1 . Expert load imbalance across layers for different MoE models and datasets: (a) Mixtral-8 $\times$ 7B on ShareGPT and (b) Phi-3.5-MoE on LMSYS-Chat-1M.
Figure 1 . Expert load imbalance across layers for different MoE models and datasets: (a) Mixtral-8 $\times$ 7B on ShareGPT and (b) Phi-3.5-MoE on LMSYS-Chat-1M.

실험 결과

연구 질문

  • RQ1서버리스 컴퓨팅을 MoE 서빙과 통합하여 성능 저하 없이 탄력성을 제공할 수 있는가?
  • RQ2레이어 인지, 가벼운 예측기가 다가오는 전문가 부하를 정확히 예측하여 느려짐을 사전에 차단할 수 있는가?
  • RQ3다이나믹한 전문가 수요 하에서 지연 시간과 비용을 최적화하는 확장 및 배치 전략은 무엇인가?

주요 결과

  • MoEless는 최신 기준선 대비 추론 대기 시간을 43% 감소시킨다.
  • MoEless는 최신 기준선 대비 추론 비용을 84% 감소시킨다.
  • 평가에 Mixtral-8×7B, Phi-3.5-MoE, 및 Llama-4-Scout를 LMSYS-Chat-1M 및 ShareGPT 데이터셋에서 사용한다.
  • NVLinks가 있는 8-GPU 테스트베드에서 실험이 수행된다.
  • 게이트 네트워크의 레이어 인지 미세 조정이 예측 거리 전반에서 부하 예측 정확도를 향상시킨다.
  • 예측기는 비동기적으로 계산과 겹쳐 추가 대기 시간을 피한다.
Figure 2 . Illustration of serving Mixture-of-Experts (MoE) based Large Language Models under expert parallelism, where tokens are routed by per-layer gate networks to a sparse set of experts distributed across GPUs. Expert load imbalance triggers inefficient resource provisioning ( e.g. , over-scal
Figure 2 . Illustration of serving Mixture-of-Experts (MoE) based Large Language Models under expert parallelism, where tokens are routed by per-layer gate networks to a sparse set of experts distributed across GPUs. Expert load imbalance triggers inefficient resource provisioning ( e.g. , over-scal

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.