[论文解读] The Diminishing Returns of Early-Exit Decoding in Modern LLMs
本文提出一个早退出适应性分数和基准,用于评估现代大语言模型在逐层早退出解码中的适用性,发现新模型中早退出收益呈下降趋势,并分析影响不同模型家族与 workloads 的早退出潜力的因素。
In Large Language Model (LLM) inference, early-exit refers to stopping computation at an intermediate layer once the prediction is sufficiently confident, thereby reducing latency and cost. However, recent LLMs adopt improved pretraining recipes and architectures that reduce layer redundancy, potentially limiting early-exit opportunities. We re-evaluate layer-wise early-exit in modern LLMs and analyze how intermediate representations evolve during training. We introduce a metric to quantify a model's intrinsic suitability for early-exit and propose a benchmark for researchers to explore the potential early-exit benefits on different models and workloads. Our results show a diminishing trend in early-exit effectiveness across newer model generations. We further find that dense transformers generally offer greater early-exit potential than Mixture-of-Experts and State Space Models. In addition, larger models, particularly those with more than 20 billion parameters, and base pretrained models without specialized tuning tend to exhibit higher early-exit potential.
研究动机与目标
- 评估现代 LLM 是否仍然具备逐层早退出解码的内在适用性。
- 量化在不牺牲输出质量的前提下,早退出能带来多少加速。
- 识别影响早退出有效性的架构、训练和工作负载因素。
- 在实现早退出方法之前,提供一个估算上限加速的框架。
提出的方法
- 定义一个结合跳过比例和层到最终相似性的早退出适应性分数(EAS)。
- 提出一个带有 oracle 提前退出评估的基准,以估算上限加速。
- 利用隐藏状态、logits 及 top-K token 重叠来计算退出层与最终输出之间的相似性。
- 在不同架构(dense、MoE、SSM)和模型世代的开源权重 LLM 上进行多样化评估。
- 分析模型规模、架构、训练与工作负载对早退出潜力的影响。

实验结果
研究问题
- RQ1RQ1:现代解码器式 LLM 是否本质上适于逐层早退出,层间相似性是否能在早退出下预测端到端准确性?
- RQ2RQ2:哪些因素(规模、架构、训练、工作负载)会影响模型支持早退出的能力?
- RQ3RQ3:对当前模型和工作负载,早退出能达到的加速上限是多少?
主要发现
- 在更新的模型世代中,早退出有效性呈现递减趋势,表明现代 LLM 的层冗余性下降。
- Dense transformer 相比 Mixture-of-Experts 与 State Space Models 展现出更高的早退出潜力。
- 规模更大的模型(特别是 >20B 参数)往往具有更高的早退出潜力。
- 持续预训练和后训练微调往往会降低早退出的适用性。
- 早退出模式在很大程度上是模型特定的,且对工作负载影响较弱。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。