QUICK REVIEW

[論文レビュー] SAGE: Accelerating Vision-Language Models via Entropy-Guided Adaptive Speculative Decoding

Yujia Tong, Tian Zhang|arXiv (Cornell University)|Jan 31, 2026

Multimodal Machine Learning Applications被引用数 0

ひとこと要約

SAGE は出力エントロピーを用いて視覚言語モデルの推測デコード木を動的に適応させ、複数のベンチマークで出力品質の損失なく最大3.36xのスピードアップを達成します。

ABSTRACT

Speculative decoding has emerged as a promising approach to accelerate inference in vision-language models (VLMs) by enabling parallel verification of multiple draft tokens. However, existing methods rely on static tree structures that remain fixed throughout the decoding process, failing to adapt to the varying prediction difficulty across generation steps. This leads to suboptimal acceptance lengths and limited speedup. In this paper, we propose SAGE, a novel framework that dynamically adjusts the speculation tree structure based on real-time prediction uncertainty. Our key insight is that output entropy serves as a natural confidence indicator with strong temporal correlation across decoding steps. SAGE constructs deeper-narrower trees for high-confidence predictions to maximize speculation depth, and shallower-wider trees for uncertain predictions to diversify exploration. SAGE improves acceptance lengths and achieves faster acceleration compared to static tree baselines. Experiments on multiple benchmarks demonstrate the effectiveness of SAGE: without any loss in output quality, it delivers up to $3.36 imes$ decoding speedup for LLaVA-OneVision-72B and $3.18 imes$ for Qwen2.5-VL-72B.

研究の動機と目的

視覚言語モデル（VLM）の推論を加速する動機付けとして、推測デコードにおける静的な木構造を解決する。
エントロピー誘導の動的推測デコードを提案し、木の深さと幅を予測不確実性に適応させる。
エントロピーに基づく適応が受容長と推論速度を向上させつつ出力の同等性を保つことを示す。
密集型（dense）および MoE VLMs、いくつかの純言語タスクにも一般化を示す。
エントロピーとトークン受容、最適な木構成との理論的関係を提供する。

提案手法

ドラフトモデルの出力エントロピーを信頼度指標として使用（正規化されたトップ-k エントロピー（Eq. 9）を介して）。
推測木を動的に構築：高信頼性の場合は深く狭く、低信頼性の場合は浅く広く（Eqs. 10–12）。
エントロピーの時系列相関を利用して次ステップの木設計を低オーバーヘッドで inform。
最近の受容性能に基づく最大深度を調整する適応履歴メカニズムを組み込む。
全体の三段階推論パイプラインを提供：木ベースのドラフト生成、並列検証、エントロピー誘導の動的木更新。
複雑さを分析し、エントロピーと受容確率の理論的結びつきを提示（定理 4.4–4.8）。

実験結果

リサーチクエスチョン

RQ1エントロピーに基づく適応型推測デコードは、静的木ベースのベンチマークと比べて受容長とスピードアップを改善するか。
RQ2エントロピー誘導の木の適応は密集型および MoE VLMs、さらには純言語モデルにも一般化できるか。
RQ3出力エントロピーとトークン受容確率の理論的関係は何か、そしてそれが適応的木設計を正当化するのか。
RQ4信頼度に基づく木の深さと幅の調整は、画像・動画ベンチマークでどのように性能に影響するか。
RQ5ドラフトモデルとターゲットモデルのコスト最適なバランスは、適応的深さと幅を導くか。

主な発見

SAGE は LLaVA-OneVision-72B で最大 3.36x、Qwen2.5-VL-72B で 3.18x のスピードアップを達成し、出力品質の損失なし。
SAGE は Benchmark 全体で受容長の平均値を高め、TextVQA、GQA、ChartQA、SEED-Bench、MVBench、VideoDetailedCaption などの比較対象と比べて有利。
エントロピー誘導の適応（高信頼性には深く、低信頼性には広く）は、SD-Tree および SpecVLM に対して受容長とスループットを改善。
MoE アーキテクチャ（例：Qwen3-VL 235B）全体でも、基準に対して最も高い受容長とスピードアップを提供。
純言語タスク（Llama3 ベースの Gsm8k や Humaneval）でも受容長とスピードアップで native 推測デコードを上回る。
アブレーション研究により、剪定比と生成長が SAGE の性能に影響を与え、VideoDetailedCaption で最適な剪定は約 0.8–0.9。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。