Skip to main content
QUICK REVIEW

[论文解读] XShare: Collaborative in-Batch Expert Sharing for Faster MoE Inference

Daniil Vankov, Nikita Ivkin|arXiv (Cornell University)|Feb 6, 2026
Mobile Crowdsensing and Crowdsourcing被引用 0
一句话总结

XShare为Mixture-of-Experts (MoE)推理提出了批量感知的专家选择,并提供贪心、无再训练修剪算法,适用于标准、推测解码和专家并行部署,以降低激活、平衡GPU负载并提升吞吐量。

ABSTRACT

Mixture-of-Experts (MoE) architectures are increasingly used to efficiently scale large language models. However, in production inference, request batching and speculative decoding significantly amplify expert activation, eroding these efficiency benefits. We address this issue by modeling batch-aware expert selection as a modular optimization problem and designing efficient greedy algorithms for different deployment settings. The proposed method, namely XShare, requires no retraining and dynamically adapts to each batch by maximizing the total gating score of selected experts. It reduces expert activation by up to 30% under standard batching, cuts peak GPU load by up to 3x in expert-parallel deployments, and achieves up to 14% throughput gains in speculative decoding via hierarchical, correlation-aware expert selection even if requests in a batch drawn from heterogeneous datasets.

研究动机与目标

  • 提出生产化MoE推理的挑战,其中 batching 与 speculate 解码会激活超出逐 token 需求的众多专家。
  • 开发一个批量感知的优化框架,在活跃专家数量受限的条件下最大化门控质量。
  • 提供实用的、无再训练的贪心算法,适用于不同部署场景(单GPU、推测解码、专家并行)。
  • 在异质工作负载下展示鲁棒性,并量化吞吐量与精度之间的权衡。

提出的方法

  • 将批量感知的专家选择建模为在基数约束下最大化模块化代理目标(门控分数之和)。
  • 证明每层代理函数的模块性并推导各MoE层的最优贪心解。
  • 提出一个三步的实用算法(热身、贪心优化、精化),在推理期间对每层应用且无需重新训练。
  • 将其扩展到推测解码,采用分层、同请求内相关性感知的选择以利用推测令牌的重叠。
  • 通过GPU感知的贪心选择处理多GPU部署,以平衡负载并降低峰值GPU使用量。
Figure 1 : Average number of activated experts
Figure 1 : Average number of activated experts

实验结果

研究问题

  • RQ1如何利用批量组成来在不牺牲准确性的前提下减少激活的MoE专家数量?
  • RQ2具有贪心优化的模块化优化代理是否能为批量感知的专家选择提供理论与实践保证?
  • RQ3如何兼容推测解码与专家并行部署,在控制内存与负载的同时维持或提升吞吐量?
  • RQ4批量感知的专家共享对异质数据集的端到端吞吐量与准确度有何影响?

主要发现

  • 在标准批处理中,批量感知的选择可将被激活的专家数量降低最多30%。
  • 在专家并行部署中,峰值GPU负载可降低至原来的约3倍,同时保持准确性。
  • 推测解码受益于分层、相关性感知的专家选择,吞吐量提升可达约14%。
  • GPU感知与逐层贪心策略可在跨GPU平衡负载并减少总激活专家数量(如EP设置中DeepSeek-R1下降约73%)。
  • 所提方法无需再训练,且能动态适应每个批次,在可接受的精度下降范围内维持性能。
Figure 2 : Batch utility expert pruning
Figure 2 : Batch utility expert pruning

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。