[论文解读] SAGE: Accelerating Vision-Language Models via Entropy-Guided Adaptive Speculative Decoding
SAGE 通过输出熵动态调整推理树,在不损失输出质量的前提下,在多个基准测试中实现最高至 3.36x 的加速,用于视觉-语言模型的推理加速。
Speculative decoding has emerged as a promising approach to accelerate inference in vision-language models (VLMs) by enabling parallel verification of multiple draft tokens. However, existing methods rely on static tree structures that remain fixed throughout the decoding process, failing to adapt to the varying prediction difficulty across generation steps. This leads to suboptimal acceptance lengths and limited speedup. In this paper, we propose SAGE, a novel framework that dynamically adjusts the speculation tree structure based on real-time prediction uncertainty. Our key insight is that output entropy serves as a natural confidence indicator with strong temporal correlation across decoding steps. SAGE constructs deeper-narrower trees for high-confidence predictions to maximize speculation depth, and shallower-wider trees for uncertain predictions to diversify exploration. SAGE improves acceptance lengths and achieves faster acceleration compared to static tree baselines. Experiments on multiple benchmarks demonstrate the effectiveness of SAGE: without any loss in output quality, it delivers up to $3.36 imes$ decoding speedup for LLaVA-OneVision-72B and $3.18 imes$ for Qwen2.5-VL-72B.
研究动机与目标
- 通过解决推测解码中的静态树结构,推动视觉-语言模型(VLMs)推理的加速。
- 提出基于熵的动态自适应推测解码,使树的深度和宽度自预测不确定性而定。
- 证明基于熵的自适配在接受长度和推理速度方面的提升,同时保持输出等价性。
- 展示在密集(Dense)与门控专家(MoE)VLMs 以及一些纯语言任务上的泛化性。
- 提供将熵与令牌接受概率及最优树配置联系起来的理论见解。
提出的方法
- 将草拟模型的输出熵作为置信度指标,使用归一化的前 K 熵(Eq. 9)。
- 动态构造推测树:对高置信度采用更深但更窄的树,对低置信度采用更浅但更宽的树(Eq. 10–12)。
- 利用熵在各步骤的时间相关性来在低开销下指导下一步树的设计。
- 结合自适应历史机制,根据最近的接受性能调整最大深度。
- 提供一个总览的三阶段推理流程:基于树的草稿生成、并行验证、基于熵的动态树更新。
- 分析复杂度并给出熵与接受概率之间的理论联系(定理 4.4–4.8)。
实验结果
研究问题
- RQ1基于熵的自适应推测解码是否在 VLMs 中相对于静态树基线提高接受长度和加速?
- RQ2基于熵的树自适应是否可以在密集与 MoE 的 VLMs,甚至纯语言模型中通用?
- RQ3输出熵与令牌接受概率之间的理论关系是什么,如何为自适应树设计提供依据?
- RQ4基于置信度调整树的深度和宽度对图像与视频基准的性能有何影响?
- RQ5是否存在草拟模型成本与目标模型成本之间的最佳平衡,以引导自适应深度和宽度?
主要发现
- SAGE 在 LLaVA-OneVision-72B 上实现最高 3.36x 的加速,在 Qwen2.5-VL-72B 上实现 3.18x 的加速,且输出质量未下降。
- 与静态基线相比,SAGE 在各基准(TextVQA、GQA、ChartQA、SEED-Bench、MVBench、VideoDetailedCaption)中呈现更高的平均接受长度。
- 基于熵的自适应(高置信度时更深的树、低置信度时更宽的树)相较于 SD-Tree 和 SpecVLM 能提高接受长度和吞吐量。
- 在 MoE 架构(如 Qwen3-VL 235B)下,SAGE 仍然给出相对于基线的最高接受长度和加速。
- SAGE 在纯语言任务(基于 Llama3 的 Gsm8k 和 Humaneval)的接受长度与加速方面也优于原生的推测解码。
- 消融研究显示修剪比和生成长度对 SAGE 的性能有影响,最优修剪约在 0.8–0.9 之间(针对 VideoDetailedCaption)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。