[論文レビュー] Thinking in Latents: Adaptive Anchor Refinement for Implicit Reasoning in LLMs
AdaAnchor は小さなアンカーベクトルのセットを反復的に更新し、アンカー動態が収束する時点で停止する適応的停止規則を用いることで、固定の潜在ステップよりも効率‑精度のトレードオフを改善し、トークンレベル推論に比べて出力トークンを削減します。
Token-level Chain-of-Thought (CoT) prompting has become a standard way to elicit multi-step reasoning in large language models (LLMs), especially for mathematical word problems. However, generating long intermediate traces increases output length and inference cost, and can be inefficient when the model could arrive at the correct answer without extensive verbalization. This has motivated latent-space reasoning approaches that shift computation into hidden representations and only emit a final answer. Yet, many latent reasoning methods depend on a fixed number of latent refinement steps at inference, adding another hyperparameter that must be tuned across models and datasets to balance accuracy and efficiency. We introduce AdaAnchor, a latent reasoning framework that performs silent iterative computation by refining a set of latent anchor vectors attached to the input. AdaAnchor further incorporates an adaptive halting mechanism that monitors anchor stability across iterations and terminates refinement once the anchor dynamics converge, allocating fewer steps to easier instances while reserving additional refinement steps for harder ones under a shared maximum-step budget. Our empirical evaluation across three mathematical word-problem benchmarks shows that AdaAnchor with adaptive halting yields accuracy gains of up to 5% over fixed-step latent refinement while reducing average latent refinement steps by 48-60% under the same maximum-step budget. Compared to standard reasoning baselines, AdaAnchor achieves large reductions in generated tokens (92-93%) by moving computation into silent latent refinement, offering a different accuracy-efficiency trade-off with substantially lower output-token usage.
研究の動機と目的
- 計算を潜在空間へシフトすることでトークンレベルの推論コストを削減する動機付け。
- 推論中にコンパクトなアンカーベクトル群を refined する潜在推論フレームワーク AdaAnchor を導入。
- アンカーの安定性に基づく適応的停止機構を開発し、改良を終了する。
- 固定ステップ潜在法および明示的チェーン・オブ・思考ベースの基準と比較して、数学ワード問題で AdaAnchor を評価する。
提案手法
- 埋め込み列の先頭に m 個の学習可能なアンカーベクトルを追加して入力を拡張する。
- フォワードパスを実行し、バックボーンの隠れ状態からアンカー・スロットを更新しつつ反復的にアンカーを refine する(平滑化パラメータ β を使用)。
- 反復ごとのアンカー動態の収束を検知する安定性ベースの停止規則で改良を終了する。
- 改良終了後に最終回答のみを回答のみ形式でデコードする。
- 適応的停止を、共通の最大潜在予算 Kmax の下で固定ステップ潜在 refined と比較する。

実験結果
リサーチクエスチョン
- RQ1潜在アンカー精練は、推論途中の説明トークンを emit せずに多段階の implicit reasoning を提供できるか。
- RQ2アンカー安定性に基づく適応停止は、固定計算予算下での効率‑精度のトレードオフを改善するか。
- RQ3AdaAnchor は標準的な数学ワード問題のベンチマークで、トークンベースおよび固定潜在アプローチと比較してどう機能するか。
主な発見
| Dataset | Model | Method | Acc. | Avg Tok | Avg Steps |
|---|---|---|---|---|---|
| GSM8K | Qwen2.5-1.5B | No CoT | 13.0 | 2.16 | – |
| GSM8K | Qwen2.5-1.5B | CoT | 20.0 | 28.27 | – |
| GSM8K | Qwen2.5-1.5B | iCoT | 12.23 | 2.36 | – |
| GSM8K | AdaAnchor (K=8) | AdaAnchor (K=8) | 16.0 | 2.73 | 8 |
| SVAMP | AdaAnchor (K=8) | AdaAnchor (K=8) | 50.5 | 2.12 | 8 |
| MultiArith | AdaAnchor (K=8) | AdaAnchor (K=8) | 27.6 | 2.34 | 8 |
| GSM8K | Llama-3.2-1B | No CoT | 10.5 | 2.98 | – |
| SVAMP | Llama-3.2-1B | No CoT | 38.2 | 2.10 | – |
| MultiArith | Llama-3.2-1B | No CoT | 20.56 | 2.08 | – |
| GSM8K | Llama-3.2-1B | CoT | 23.2 | 25.4 | – |
| SVAMP | Llama-3.2-1B | CoT | 57.8 | 28.21 | – |
| MultiArith | Llama-3.2-1B | CoT | 43.33 | 28.0 | – |
| GSM8K | Llama-3.2-1B | iCoT | 11.7 | 2.25 | – |
| SVAMP | Llama-3.2-1B | iCoT | 54.2 | 2.43 | – |
| MultiArith | Llama-3.2-1B | iCoT | 30.84 | 2.12 | – |
| GSM8K | Llama-3.2-1B | AdaAnchor (K=8) | 14.0 | 2.89 | 8 |
| SVAMP | Llama-3.2-1B | AdaAnchor (K=8) | 52.0 | 2.13 | 8 |
| MultiArith | Llama-3.2-1B | AdaAnchor (K=8) | 28.31 | 2.48 | 8 |
| GSM8K | Llama-3.2-1B | AdaAnchor adaptive | 17.2 | 2.45 | 3.5 |
| SVAMP | Llama-3.2-1B | AdaAnchor adaptive | 53.4 | 2.8 | 3.1 |
| MultiArith | Llama-3.2-1B | AdaAnchor adaptive | 32.44 | 2.57 | 3.5 |
- AdaAnchor は適応停止を用いると、同一予算内で固定ステップ潜在 refined より最大 5% の精度向上を達成。
- 適応停止は、平均で固定ステップ refined と比べて平均 48–60% の潜在 refined 手順を削減。
- AdaAnchor は潜在空間での計算を行うことで、トークンベース推論ベースラインに対して出力トークン使用量を大幅に削減(92–93%削減)。
- No-CoT および明示的 CoT ベースラインと比較して、GSM8K、SVAMP、MultiArith で効率性を保ちつつ精度を維持または向上。
- 固定ステップ予算は効果が減衰するため、適応的終了戦略を動機づける。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。