[論文レビュー] XShare: Collaborative in-Batch Expert Sharing for Faster MoE Inference
XShareはMixture-of-Experts (MoE) 推論のためのバッチ意識型エキスパート選択を定式化し、標準・推定デコード・エキスパート並列展開に合わせた再訓練なしの貪欲 pruning アルゴリズムを提供して、活性化数を削減し、GPU負荷を均衡させ、スループットを向上させる。
Mixture-of-Experts (MoE) architectures are increasingly used to efficiently scale large language models. However, in production inference, request batching and speculative decoding significantly amplify expert activation, eroding these efficiency benefits. We address this issue by modeling batch-aware expert selection as a modular optimization problem and designing efficient greedy algorithms for different deployment settings. The proposed method, namely XShare, requires no retraining and dynamically adapts to each batch by maximizing the total gating score of selected experts. It reduces expert activation by up to 30% under standard batching, cuts peak GPU load by up to 3x in expert-parallel deployments, and achieves up to 14% throughput gains in speculative decoding via hierarchical, correlation-aware expert selection even if requests in a batch drawn from heterogeneous datasets.
研究の動機と目的
- バッチ処理と推定デコードが1トークン単位以上のエキスパートを活性化する production MoE推論の課題を動機付ける。
- 限られた活性エキスパート数の下でゲーティングマスを最大化するバッチ意識型最適化フレームワークを開発する。
- 単一GPU、推定デコード、エキスパート並列など異なるデプロイ設定に適応可能な実用的な再訓練なし貪欲アルゴリズムを提供する。
- 異種ワークロードに対する頑健性を示し、スループットと精度のトレードオフを定量化する。
提案手法
- バッチ意識型エキスパート選択を、制約度数を満たすモジュラーな代理目的関数(ゲーティングスコアの和)を最大化する問題として定式化する。
- 層ごとの代理関数のモジュラリティを証明し、各MoE層に対して最適な貪欲解を導出する。
- 再訓練なしで推論時に層ごとに適用する3段階の実用アルゴリズム(ウォームアップ、貪欲最適化、洗練)を提案する。
- 推定デコードへ拡張し、推定トークンの重複を活用する階層的・層内関連性認識の選択を導入する。
- 複数GPU展開に対応するGPU意識型貪欲選択を提案し、負荷を平準化しピークGPU使用を削減する。

実験結果
リサーチクエスチョン
- RQ1バッチ構成をどう活用して、精度を犠牲にせずMoEエキスパートの活性化数を減らせるか?
- RQ2貪欲最適化を含むモジュラー最適化代理がバッチ意識型エキスパート選択に理論的・実践的保証を提供できるか?
- RQ3推定デコードとエキスパート並列展開をどう組み合わせて、メモリと負荷を抑えつつスループットを維持・向上できるか?
- RQ4バッチ意識型エキスパート共有が異種データセット全体のエンドツーエンドのスループットと精度に与える影響はどの程度か?
主な発見
- 標準のバッチ処理下で、バッチ意識型選択は活性化エキスパート数を最大で約30%削減できる。
- エキスパート並列展開では、ピークGPU負荷を最大3倍低減しつつ精度を維持できる。
- 推定デコードは階層的・相関認識エキスパート選択により利得を得て、スループットを最大14%向上させる。
- GPU意識型および層別貪欲戦略はGPU間の負荷を均衡化し、総活性エキスパート数を削減できる(例:EP設定のDeepSeek-R1で73%低減)。
- 提案手法は再訓練不要で、各バッチに動的に適応し、精度を小さなデグレード予算内に保つ。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。