Skip to main content
QUICK REVIEW

[논문 리뷰] SAGE: Accelerating Vision-Language Models via Entropy-Guided Adaptive Speculative Decoding

Yujia Tong, Tian Zhang|arXiv (Cornell University)|2026. 01. 31.
Multimodal Machine Learning Applications인용 수 0
한 줄 요약

SAGE는 시각-언어 모델의 추정 디코딩 트리를 출력 엔트로피를 사용하여 동적으로 적응시키고, 여러 벤치마크에서 출력 품질 손실 없이 최대 3.36배의 속도 향상을 달성합니다.

ABSTRACT

Speculative decoding has emerged as a promising approach to accelerate inference in vision-language models (VLMs) by enabling parallel verification of multiple draft tokens. However, existing methods rely on static tree structures that remain fixed throughout the decoding process, failing to adapt to the varying prediction difficulty across generation steps. This leads to suboptimal acceptance lengths and limited speedup. In this paper, we propose SAGE, a novel framework that dynamically adjusts the speculation tree structure based on real-time prediction uncertainty. Our key insight is that output entropy serves as a natural confidence indicator with strong temporal correlation across decoding steps. SAGE constructs deeper-narrower trees for high-confidence predictions to maximize speculation depth, and shallower-wider trees for uncertain predictions to diversify exploration. SAGE improves acceptance lengths and achieves faster acceleration compared to static tree baselines. Experiments on multiple benchmarks demonstrate the effectiveness of SAGE: without any loss in output quality, it delivers up to $3.36 imes$ decoding speedup for LLaVA-OneVision-72B and $3.18 imes$ for Qwen2.5-VL-72B.

연구 동기 및 목표

  • 스펙ulative decoding의 정적 트리 구조를 다루어 비전-언어 모델(VLM)의 추론 가속화를 유도한다.
  • 예측 불확실성에 적응하는 엔트로피 가이드 동적 스펙ulative decoding를 제안한다.
  • 엔트로피 기반 적응이 수용 길이(acceptance length)와 추론 속도를 높이면서 출력 동등성을 유지함을 보여준다.
  • dense 및 MoE VLM 및 일부 순수 언어 작업에 걸친 일반화를 보인다.
  • 엔트로피와 토큰 수용 확률 및 최적 트리 구성 사이의 이론적 연결에 대한 통찰을 제공한다.

제안 방법

  • 초안 모델의 출력 엔트로피를 정상화된 상위-k 엔트로피(식 9)를 통해 신뢰도 지표로 사용한다.
  • 동적으로 추측 트리를 구성한다: 고신뢰도일 때 더 깊고 좁게, 저신뢰도일 때 얕고 넓게(식 10–12).
  • 단계 간 엔트로피의 시간적 상관관계를 활용하여 다음 단계 트리 설계를 낮은 오버헤드로 inform 한다.
  • 최근 수용 성능에 따라 최대 깊이를 조정하는 적응형 히스토리 메커니즘을 도입한다.
  • 전반적으로 트리 기반 초안 생성, 병렬 검증, 엔트로피 가이드 동적 트리 업데이트의 3단계 추론 파이프라인을 제공한다.
  • 복잡성을 분석하고 엔트로피와 수용 확률 간의 이론적 연결(정리 4.4–4.8)을 제시한다.

실험 결과

연구 질문

  • RQ1엔트로피 기반의 적응적 스펙ulative decoding이 VLM에서 정적 트리 기반 베이스라인에 비해 수용 길이와 속도 향상을 가져오는가?
  • RQ2엔트로피 가이드 트리 적응이 dense 및 MoE VLM은 물론 순수 언어 모델에까지 일반화될 수 있는가?
  • RQ3출력 엔트로피와 토큰 수용 확률 간의 이론적 관계는 무엇이며, 이것이 적응형 트리 설계를 어떻게 정당화하는가?
  • RQ4신뢰도에 따라 트리 깊이와 너비를 조정하는 것이 이미지 및 비디오 벤치마크에서 성능에 어떤 영향을 미치는가?
  • RQ5초안 모델과 타깃 모델 비용 간의 최적 균형이 적응적 깊이와 너비를 어떻게 이끈가?

주요 결과

  • SAGE는 LLaVA-OneVision-72B에서 최대 3.36배의 속도 향상과 Qwen2.5-VL-72B에서 3.18배의 속도 향상을 달성하되 출력 품질 손실이 없다.
  • SAGE는 TextVQA, GQA, ChartQA, SEED-Bench, MVBench, VideoDetailedCaption 등 벤치마크에서 고정 베이스라인 대비 평균 수용 길이가 더 높다.
  • 엔트로피 기반 적응(높은 신뢰도일 때 더 깊고, 낮은 신뢰도일 때 더 넓은 트리)은 SD-Tree 및 SpecVLM에 비해 수용 길이와 처리량을 개선한다.
  • MoE 아키텍처 전반에서(Qwen3-VL 235B 등) SAGE가 여전히 베이스라인 대비 가장 높은 수용 길이와 속도향상을 제공한다.
  • SAGE는 순수 언어 작업에서도 (Llama3 기반 Gsm8k 및 Humaneval) 원래의 스펙ulative decoding보다 수용 길이와 속도에서 우수하다.
  • 절단 비율과 생성 길이가 SAGE의 성능에 영향을 주는 것으로 나타났으며 VideoDetailedCaption에서 최적의 절단은 약 0.8–0.9이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.