QUICK REVIEW

[논문 리뷰] XShare: Collaborative in-Batch Expert Sharing for Faster MoE Inference

Daniil Vankov, Nikita Ivkin|arXiv (Cornell University)|2026. 02. 06.

Mobile Crowdsensing and Crowdsourcing인용 수 0

한 줄 요약

XShare는 Mixture-of-Experts(MoE) 추론을 위한 배치 인식 전문가 선택을 공식화하고, 표준, 예측 디코딩 및 전문가-병렬 배치에 맞게 재훈련 없이 탐욕적 가지치기 알고리즘을 제공하여 활성화 감소, GPU 부하 균형 및 처리량 증대를 실현한다.

ABSTRACT

Mixture-of-Experts (MoE) architectures are increasingly used to efficiently scale large language models. However, in production inference, request batching and speculative decoding significantly amplify expert activation, eroding these efficiency benefits. We address this issue by modeling batch-aware expert selection as a modular optimization problem and designing efficient greedy algorithms for different deployment settings. The proposed method, namely XShare, requires no retraining and dynamically adapts to each batch by maximizing the total gating score of selected experts. It reduces expert activation by up to 30% under standard batching, cuts peak GPU load by up to 3x in expert-parallel deployments, and achieves up to 14% throughput gains in speculative decoding via hierarchical, correlation-aware expert selection even if requests in a batch drawn from heterogeneous datasets.

연구 동기 및 목표

생산용 MoE 추론 도전 과제를 동기 부여하여 배치 및 예측 디코딩이 per-token 필요를 넘어 많은 전문가를 활성화하는 현상을 다룬다.
활성 전문가 수가 제한된 상태에서 게이팅 질량을 최대화하기 위한 배치 인지 최적화 프레임워크를 개발한다.
다양한 배포 환경(단일 GPU, 예측 디코딩, 전문가-병렬)에 적응 가능한 실용적이고 재훈련이 필요 없는 탐욕적 알고리즘을 제공한다.
이질적인 워크로드에서의 강건성을 입증하고 처리량과 정확도 간의 trade-off를 정량화한다.]
method2_ARRAY_PLACEHOLDER

제안 방법

모듈식 프록시 목적함수의 합계로서 카디널리티 제약 하의 배치 인식 전문가 선택을 모델링한다(게이팅 점수의 합).
계층별 프록시 함수의 모듈성(Modularity)을 증명하고 각 MoE 층에 대해 최적의 탐욕적 해를 도출한다.
재훈련 없이 추론 중 각 층에 적용되는 예열-탐욕 최적화-정제의 3단계 실무 알고리즘을 제안한다.
예측 디코딩과의 복합적인 상관관계 인식을 통한 위계적, 계정 내 상호 연관성을 이용한 탐욕적 선택으로 예측 토큰 중첩 활용을 확장한다.
GPU 인식형 탐욕적 선택을 통해 멀티-GPU 배포를 다루고 부하를 균형 맞추며 피크 GPU 사용량을 줄인다.

Figure 1 : Average number of activated experts

실험 결과

연구 질문

RQ1배치 구성을 어떻게 활용하여 정확도 손실 없이 MoE 전문가의 활성화를 줄일 수 있는가?
RQ2탐욕적 최적화를 포함한 모듈식 최적화 프록시가 배치 인식 전문가 선택에 이론적 및 실용적 보장을 제공할 수 있는가?
RQ3예측 디코딩 및 전문가-병렬 배포를 어떻게 수용하여 메모리 및 부하를 제어하면서 처리량을 유지하거나 향상시킬 수 있는가?
RQ4배치 인식 전문가 공유가 이질적인 데이터셋에서 엔드-투-엔드 처리량과 정확도에 어떤 영향을 미치는가?

주요 결과

표준 배치에서 배치 인식 선택은 활성화된 전문가 수를 최대 30%까지 줄일 수 있다.
전문가-병렬 배포에서 피크 GPU 부하는 정확도 손실 없이 최대 3배까지 감소시킬 수 있다.
예측 디코딩은 위계적이고 상관관계 인식이 가능한 전문가 선택으로 이익을 얻어 처리량이 최대 14%까지 증가한다.
GPU 인식형 및 층별 탐욕 전략은 GPU 간 부하를 균형 있게 분배하고 활성화된 총 전문가 수를 줄일 수 있다(예: EP 설정에서 DeepSeek-R1의 73% 감소).
제안된 방법은 재훈련이 필요 없으며 각 배치에 동적으로 적응하며 작은 감소 예산 내에서 정확도를 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.