Skip to main content
QUICK REVIEW

[논문 리뷰] Fuel Gauge: Estimating Chain-of-Thought Length Ahead of Time in Large Multimodal Models

Yuedong Yang, Xiwen Wei|arXiv (Cornell University)|2026. 03. 11.
Multimodal Machine Learning Applications인용 수 0
한 줄 요약

본 논문은 생성 전에 대형 다중모달 모델의 체인 오브 생각(Chain-of-Thought) 길이를 추정하는 경량 예측기인 Fuel Gauge를 소개하며, 이를 통해 예측적 KV-캐시 할당과 CoT 길이 조절이 가능해 효율성 및 정확도를 향상시킵니다.

ABSTRACT

Reasoning Large Multi-modality Models (LMMs) have become the de facto choice for many applications. However, these models rely on a Chain-of-Thought (CoT) process that is lengthy and unpredictable at runtime, often resulting in inefficient use of computational resources (due to memory fragmentation) and sub-optimal accuracy (due to under- and over-thinking). We observe empirically that the CoT process follows a very simple form, whose behavior is independent of the specific generated samples. This suggests that the CoT length can be estimated ahead of time based on a hidden parameter representing the amount of "fuel" available to support the reasoning process. Based on this insight, we propose Fuel Gauge, the first method which extracts this hidden signal and predicts CoT length ahead of time. We demonstrate the utility on the Fuel Gauge on two downstream tasks: predictive KV cache allocation, which addresses memory fragmentation in LMM serving systems, and CoT length modulation, which mitigates under-thinking and over-thinking. Extensive experiments on LMMs across text-only, image-text, and video-text question answering benchmarks demonstrate the effectiveness, generalizability, and practical value of our Fuel Gauge. For example, on the GPQA-Diamond benchmark, our Fuel Gauge achieves less than half the CoT length prediction error compared to the baseline; this translates into a 13.37x reduction in the memory allocation frequency.

연구 동기 및 목표

  • 대형 멀티모달 모델(LMMs)에서 예측 불가능한 CoT 길이로 인한 비효율성(메모리 단편화, 과도한/부족한 사고 등)을 동기부여하고 해결합니다.
  • 내부 연료 수준 신호를 사용하여 미리 CoT 길이를 예측하는 프레임워크를 제안합니다.
  • 예측적 KV 캐시 할당과 CoT 길이 조절의 두 가지 실용적 응용을 시연합니다.
  • 텍스트 전용, 이미지-텍스트, 비디오-텍스트 벤치마크 전반에 걸친 일반화 가능성을 검증합니다.

제안 방법

  • CoT 길이를 Bernoulli 유사 프로세스로 특성화하고 입력 프롬프트로부터 예측 가능성을 가설합니다.
  • 추론이 진행됨에 따라 감소하고 스칼라 연료 수준으로 매핑될 수 있는 내부 연료 수준 신호를 가정합니다.
  • 두 단계 예측을 개발합니다: 1단계에서 숨겨진 신호 S_i를 추출하고 연료 수준 r_i를 추정; 2단계에서 연료가 0에 도달하는 곳의 CoT 길이를 외삽하기 위해 선형 모델을 적합합니다.
  • 저오버헤드의 경량 신경 구성요소를 구현합니다: f_sig(1D depth-wise + 1D point-wise conv) 및 f_fuel(2-layer MLP).
  • f_sig와 f_fuel를 MMLU/MMMU의 200개 CoT 추적 데이터로 학습하고, 지면 진실 N에 대한 상대 평균 절대 오차(rMAE)로 평가합니다.
  • Fuel Gauge를 예측적 KV 캐시 할당에 적용하여 메모리 할당을 줄이고 h_i에 대한 그래디언트 기반의 정규화된 업데이트를 통해 목표 연료 수준을 달성하는 CoT 길이 조절을 구현합니다.
Figure 1 : Example of the output of reasoning LMM, which consists of a long CoT section wrapped with special symbols “<think>” and “</think>”, and a short Conclusion section.
Figure 1 : Example of the output of reasoning LMM, which consists of a long CoT section wrapped with special symbols “<think>” and “</think>”, and a short Conclusion section.

실험 결과

연구 질문

  • RQ1입력 프롬프트로 조건화된 매개변수를 사용하여 CoT 생성 이전에 CoT 길이를 예측할 수 있나요?
  • RQ2CoT 진행과 상관관계가 있으며 숨겨진 상태에서 추정할 수 있는 LMM의 내부 연료 수준 신호가 존재합니까?
  • RQ3실용적인 하류 제어를 가능하게 하기 위해 런타임에 CoT 길이를 정확하게 추정하는 소형 예측기가 있나요?
  • RQ4예측된 CoT 길이 추정치가 모듈 간 메모리 효율성과 추론 제어의 실질적인 향상으로 이어지나요?

주요 결과

  • Fuel Gauge는 연료 수준 추정에서 기초선 대비 현저히 우수하게 수행합니다(End-of-CoT 확률 또는 평균/중앙값 기초선보다 낮은 rMAE).
  • CoT 길이는 텍스트 전용, 이미지-텍스트 및 비디오-텍스트 벤치마크 전반에서 강력한 일반화로 예측될 수 있으며 GPQA-Diamond 및 MathVision-m 과제에서 기초선 대비 개선이 있습니다.
  • 예측적 KV 캐시 할당에 Fuel Gauge를 사용하면 메모리 할당 횟수가 현저히 줄고 단편화가 감소합니다(예: 특정 벤치마크에서 최대 13.37배 감소).
  • Fuel Gauge에 의해 안내된 CoT 길이 조절은 여러 모델과 벤치마크에서 CoT 길이와 모델 정확도에 선형 제어를 제공합니다.
  • 단계별 설계(연료 수준 추출에 이어 선형 외추출)는 런타임 CoT 길이 추정을 거의 오버헤드 없이 가능하게 합니다.
  • 200개의 CoT 추적 데이터로의 학습은 작업 및 모듈 간 일반화에 충분하며 실용적 일반화를 보여줍니다.
Figure 2 : Correlation between Chain-of-Thoughts (CoT) and LMM accuracy collected from Qwen3 [ 1 ] , Qwen3VL [ 6 ] , Intern-S1 [ 3 ] and GLM [ 31 ] across multiple text-only, image-text and video-text benchmarks. Using accuracy as a proxy for task difficulty, we observe a clear negative correlation
Figure 2 : Correlation between Chain-of-Thoughts (CoT) and LMM accuracy collected from Qwen3 [ 1 ] , Qwen3VL [ 6 ] , Intern-S1 [ 3 ] and GLM [ 31 ] across multiple text-only, image-text and video-text benchmarks. Using accuracy as a proxy for task difficulty, we observe a clear negative correlation

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.