Skip to main content
QUICK REVIEW

[論文レビュー] Thinking in Latents: Adaptive Anchor Refinement for Implicit Reasoning in LLMs

Disha Sheshanarayana, Rajat Subhra Pal|arXiv (Cornell University)|Mar 16, 2026
Topic Modeling被引用数 0
ひとこと要約

AdaAnchor は小さなアンカーベクトルのセットを反復的に更新し、アンカー動態が収束する時点で停止する適応的停止規則を用いることで、固定の潜在ステップよりも効率‑精度のトレードオフを改善し、トークンレベル推論に比べて出力トークンを削減します。

ABSTRACT

Token-level Chain-of-Thought (CoT) prompting has become a standard way to elicit multi-step reasoning in large language models (LLMs), especially for mathematical word problems. However, generating long intermediate traces increases output length and inference cost, and can be inefficient when the model could arrive at the correct answer without extensive verbalization. This has motivated latent-space reasoning approaches that shift computation into hidden representations and only emit a final answer. Yet, many latent reasoning methods depend on a fixed number of latent refinement steps at inference, adding another hyperparameter that must be tuned across models and datasets to balance accuracy and efficiency. We introduce AdaAnchor, a latent reasoning framework that performs silent iterative computation by refining a set of latent anchor vectors attached to the input. AdaAnchor further incorporates an adaptive halting mechanism that monitors anchor stability across iterations and terminates refinement once the anchor dynamics converge, allocating fewer steps to easier instances while reserving additional refinement steps for harder ones under a shared maximum-step budget. Our empirical evaluation across three mathematical word-problem benchmarks shows that AdaAnchor with adaptive halting yields accuracy gains of up to 5% over fixed-step latent refinement while reducing average latent refinement steps by 48-60% under the same maximum-step budget. Compared to standard reasoning baselines, AdaAnchor achieves large reductions in generated tokens (92-93%) by moving computation into silent latent refinement, offering a different accuracy-efficiency trade-off with substantially lower output-token usage.

研究の動機と目的

  • 計算を潜在空間へシフトすることでトークンレベルの推論コストを削減する動機付け。
  • 推論中にコンパクトなアンカーベクトル群を refined する潜在推論フレームワーク AdaAnchor を導入。
  • アンカーの安定性に基づく適応的停止機構を開発し、改良を終了する。
  • 固定ステップ潜在法および明示的チェーン・オブ・思考ベースの基準と比較して、数学ワード問題で AdaAnchor を評価する。

提案手法

  • 埋め込み列の先頭に m 個の学習可能なアンカーベクトルを追加して入力を拡張する。
  • フォワードパスを実行し、バックボーンの隠れ状態からアンカー・スロットを更新しつつ反復的にアンカーを refine する(平滑化パラメータ β を使用)。
  • 反復ごとのアンカー動態の収束を検知する安定性ベースの停止規則で改良を終了する。
  • 改良終了後に最終回答のみを回答のみ形式でデコードする。
  • 適応的停止を、共通の最大潜在予算 Kmax の下で固定ステップ潜在 refined と比較する。
Figure 1: Comparison of AdaAnchor with explicit Chain-of-Thought (CoT) reasoning. CoT generates long intermediate reasoning tokens, whereas AdaAnchor performs implicit multi-step computation by refining latent anchor vectors and uses stability-based early stopping before answer-only decoding.
Figure 1: Comparison of AdaAnchor with explicit Chain-of-Thought (CoT) reasoning. CoT generates long intermediate reasoning tokens, whereas AdaAnchor performs implicit multi-step computation by refining latent anchor vectors and uses stability-based early stopping before answer-only decoding.

実験結果

リサーチクエスチョン

  • RQ1潜在アンカー精練は、推論途中の説明トークンを emit せずに多段階の implicit reasoning を提供できるか。
  • RQ2アンカー安定性に基づく適応停止は、固定計算予算下での効率‑精度のトレードオフを改善するか。
  • RQ3AdaAnchor は標準的な数学ワード問題のベンチマークで、トークンベースおよび固定潜在アプローチと比較してどう機能するか。

主な発見

DatasetModelMethodAcc.Avg TokAvg Steps
GSM8KQwen2.5-1.5BNo CoT13.02.16
GSM8KQwen2.5-1.5BCoT20.028.27
GSM8KQwen2.5-1.5BiCoT12.232.36
GSM8KAdaAnchor (K=8)AdaAnchor (K=8)16.02.738
SVAMPAdaAnchor (K=8)AdaAnchor (K=8)50.52.128
MultiArithAdaAnchor (K=8)AdaAnchor (K=8)27.62.348
GSM8KLlama-3.2-1BNo CoT10.52.98
SVAMPLlama-3.2-1BNo CoT38.22.10
MultiArithLlama-3.2-1BNo CoT20.562.08
GSM8KLlama-3.2-1BCoT23.225.4
SVAMPLlama-3.2-1BCoT57.828.21
MultiArithLlama-3.2-1BCoT43.3328.0
GSM8KLlama-3.2-1BiCoT11.72.25
SVAMPLlama-3.2-1BiCoT54.22.43
MultiArithLlama-3.2-1BiCoT30.842.12
GSM8KLlama-3.2-1BAdaAnchor (K=8)14.02.898
SVAMPLlama-3.2-1BAdaAnchor (K=8)52.02.138
MultiArithLlama-3.2-1BAdaAnchor (K=8)28.312.488
GSM8KLlama-3.2-1BAdaAnchor adaptive17.22.453.5
SVAMPLlama-3.2-1BAdaAnchor adaptive53.42.83.1
MultiArithLlama-3.2-1BAdaAnchor adaptive32.442.573.5
  • AdaAnchor は適応停止を用いると、同一予算内で固定ステップ潜在 refined より最大 5% の精度向上を達成。
  • 適応停止は、平均で固定ステップ refined と比べて平均 48–60% の潜在 refined 手順を削減。
  • AdaAnchor は潜在空間での計算を行うことで、トークンベース推論ベースラインに対して出力トークン使用量を大幅に削減(92–93%削減)。
  • No-CoT および明示的 CoT ベースラインと比較して、GSM8K、SVAMP、MultiArith で効率性を保ちつつ精度を維持または向上。
  • 固定ステップ予算は効果が減衰するため、適応的終了戦略を動機づける。
Figure 2: Overview of AdaAnchor. AdaAnchor prepends $m$ learnable latent anchor vectors to the input embedding sequence (left), iteratively refines them via repeated forward passes and anchor-slot updates (middle), and uses a stability-based criterion to halt early before performing answer-only deco
Figure 2: Overview of AdaAnchor. AdaAnchor prepends $m$ learnable latent anchor vectors to the input embedding sequence (left), iteratively refines them via repeated forward passes and anchor-slot updates (middle), and uses a stability-based criterion to halt early before performing answer-only deco

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。