Skip to main content
QUICK REVIEW

[論文レビュー] Fuel Gauge: Estimating Chain-of-Thought Length Ahead of Time in Large Multimodal Models

Yuedong Yang, Xiwen Wei|arXiv (Cornell University)|Mar 11, 2026
Multimodal Machine Learning Applications被引用数 0
ひとこと要約

この論文は、生成前に大規模マルチモーダルモデルのコト長を推定する軽量予測器 Fuel Gauge を導入し、予測的 KV キャッシュ割り当てと CoT 長さの調整を可能にして効率と精度を向上させる。

ABSTRACT

Reasoning Large Multi-modality Models (LMMs) have become the de facto choice for many applications. However, these models rely on a Chain-of-Thought (CoT) process that is lengthy and unpredictable at runtime, often resulting in inefficient use of computational resources (due to memory fragmentation) and sub-optimal accuracy (due to under- and over-thinking). We observe empirically that the CoT process follows a very simple form, whose behavior is independent of the specific generated samples. This suggests that the CoT length can be estimated ahead of time based on a hidden parameter representing the amount of "fuel" available to support the reasoning process. Based on this insight, we propose Fuel Gauge, the first method which extracts this hidden signal and predicts CoT length ahead of time. We demonstrate the utility on the Fuel Gauge on two downstream tasks: predictive KV cache allocation, which addresses memory fragmentation in LMM serving systems, and CoT length modulation, which mitigates under-thinking and over-thinking. Extensive experiments on LMMs across text-only, image-text, and video-text question answering benchmarks demonstrate the effectiveness, generalizability, and practical value of our Fuel Gauge. For example, on the GPQA-Diamond benchmark, our Fuel Gauge achieves less than half the CoT length prediction error compared to the baseline; this translates into a 13.37x reduction in the memory allocation frequency.

研究の動機と目的

  • unpredictable CoT 長が LMM にもたらす非効率性(メモリ断片化、過剰/過少思考)を動機づけて対処する。
  • 内部の燃料レベル信号を用いて事前に CoT 長を予測するフレームワークを提案する。
  • 予測的 KV キャッシュ割り当てと CoT 長さモジュレーションの二つの実用的応用を示す。
  • テキストのみ、画像-テキスト、ビデオ-テキストのベンチマーク全体で一般化可能性を検証する。

提案手法

  • CoT 長をバーランのような過程として特徴づけ、入力プロンプトから予測可能性を仮定する。
  • 推論が進むにつれて減少し、スカラー燃料レベルへ対応づけられる内部の燃料信号を仮定する。
  • 二段階の予測を開発する:ステージ1 で隠れ信号 S_i を抽出し燃料レベル r_i を推定する。ステージ2 で燃料がゼロに達するまでの CoT 長を外挿する線形モデルを適合させる。
  • 軽量なニューラル要素を実装する:f_sig(1D 深層卷積 + 1D 点-wise conv)、f_fuel(2 層 MLP)を低オーバーヘッドで。
  • f_sig と f_fuel を MMLU/MMMU からの 200 件の CoT トレースで訓練し、実世界の真値 N に対する相対平均絶対誤差(rMAE)で評価する。
  • Fuel Gauge を予測的 KV キャッシュ割り当てに適用してメモリ割り当てを削減し、勾配ベースの正規化更新を用いて h_i の CoT 長を目標燃料レベルへ導くことで CoT 長のモジュレーションを行い、性能を向上させる。
Figure 1 : Example of the output of reasoning LMM, which consists of a long CoT section wrapped with special symbols “<think>” and “</think>”, and a short Conclusion section.
Figure 1 : Example of the output of reasoning LMM, which consists of a long CoT section wrapped with special symbols “<think>” and “</think>”, and a short Conclusion section.

実験結果

リサーチクエスチョン

  • RQ1CoT ジェネレーション前に入力プロンプト条件付パラメータを用いて CoT 長を予測できるか?
  • RQ2LMM において CoT の進行と相関し、隠れ状態から推定できる内部の燃料レベル信号は存在するか?
  • RQ3実用的な下流制御を可能にするよう、ランタイムで CoT 長を正確に推定できるコンパクトな予測器は作れるか?
  • RQ4予測的 CoT 長の推定が、マルチモーダル全体でのメモリ効率と推論制御の実質的改善につながるか?

主な発見

  • Fuel Gauge は燃料レベル推定においてベースラインより顕著に優れている(End-of-CoT 確率や平均/中央値ベースラインより低い rMAE)。
  • CoT 長はテキストのみ、画像-テキスト、ビデオ-テキストのベンチマーク全体で強い一般化を示し、GPQA-Diamond および MathVision-m タスクでベースラインを上回る改善を達成。
  • 予測的 KV キャッシュ割り当てに Fuel Gauge を用いると、特定のベンチマークでメモリ割り当ての削減が大幅に進み、断片化が減少する(例:最大で約13.37倍のメモリ割り当て削減)。
  • Fuel Gauge による CoT 長のモジュレーションは、複数のモデルとベンチマークにおいて CoT 長とモデル精度を線形に制御可能。
  • 段階的設計(燃料レベルの抽出とその後の線形外挿)により、実行時の CoT 長推定がほとんどオーバーヘッドを伴わず実現できる。
  • 200 件の CoT トレースでの訓練で、タスクとモダリティを超えて一般化する実用的な一般化性を示す。
Figure 2 : Correlation between Chain-of-Thoughts (CoT) and LMM accuracy collected from Qwen3 [ 1 ] , Qwen3VL [ 6 ] , Intern-S1 [ 3 ] and GLM [ 31 ] across multiple text-only, image-text and video-text benchmarks. Using accuracy as a proxy for task difficulty, we observe a clear negative correlation
Figure 2 : Correlation between Chain-of-Thoughts (CoT) and LMM accuracy collected from Qwen3 [ 1 ] , Qwen3VL [ 6 ] , Intern-S1 [ 3 ] and GLM [ 31 ] across multiple text-only, image-text and video-text benchmarks. Using accuracy as a proxy for task difficulty, we observe a clear negative correlation

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。