[論文レビュー] Capabilities and Fundamental Limits of Latent Chain-of-Thought
要約: 本論文は Latent CoT と explicit CoT における探索-実行のトレードオフを分析し、決定的確実性を定量化する Symbolic Index を導入、カリキュラム学習が理論的に必要であることを証明し、確実性と推論性能を結ぶ統一的枠組みを提供する。
Latent Chain-of-Thought (Latent CoT) models promise efficient reasoning via continuous representations, yet exhibit puzzling performance inconsistencies: excelling at exploration (ProsQA: 97.0%) but failing at computation (GSM8K: 34.1%). We reveal that this trade-off is governed by decisional certainty. Our contributions are threefold: (1) We theoretically characterize the fundamental Exploration-Execution Trade-off, proving that high certainty enables precise execution but inhibits exploration, while low certainty facilitates search but causes error accumulation. (2) We introduce the Symbolic Index--quantifying decisional commitment--as the core mechanism governing this trade-off and establish its causal relationship with both execution stability and exploration capability. (3) We prove that curriculum learning is theoretically necessary, as direct training provably fails due to distributional mismatch. Our framework shifts the design paradigm from binary architectural choices toward adaptive systems that dynamically regulate decisional certainty based on task demands.
研究の動機と目的
- Explicit CoT と latent CoT が推論タスクにおいて補完的な失敗モードを示す理由を動機付け、形式化する。
- 決定的確実性を通じた探索-実行のトレードオフを特徴づけ、Symbolic Index を規制指標として導入する。
- Latent CoT を訓練し分布間のギャップを橋渡しするにはカリキュラム学習が理論的に必要であることを示す。
- タスク要求に基づいて決定的確実性を適応的に regulate するシステムの枠組みを提案する。
提案手法
- CoT を離散的トークン生成として、Latent CoT を連続的潜在状態の進化としてモデリングする。
- Coconut 学習目的を形式化し、それが duality(定理 4.1)を介して条件付き情報ボトルネック(CIB)と同値であることを示す。
- Symbolic Index (I_S) を上位トークン確率として定義・分析し、確実性を調整する。
- 探索-実行のトレードオフの境界を導出し、I_S と均一探索からの KL 発散との関係を示す(定理 4.12)。
- ノイズに対する頑健性をロジットマージン(定理 4.11)と局所的な決定前 perturbation(定理 4.8)を用いて分析する。
- カリキュラム学習が必要であることを証明し(定理 5.1)、標準的な学習条件下での収束が十分であることを示す(定理 5.2)。
![Figure 1 : Symbolic Index on GSM8K. Latent CoT (shown) maintains a low Symbolic Index ( $\mathcal{I}_{\text{S}}\in[0.2,0.5]$ ), indicating a dispersed probability distribution. It lacks the probability concentration ( $\mathcal{I}_{\text{S}}\approx 1.0$ ) observed in Explicit CoT.](https://ar5iv.labs.arxiv.org/html/2602.01148/assets/x1.png)
実験結果
リサーチクエスチョン
- RQ1explicit CoT と latent CoT がタスク間で補完的な強みと弱みを示す理由は何か。
- RQ2決定的確実性は推論モデルにおける探索と実行をどのように調整するのか。
- RQ3Latent CoT に対してカリキュラム学習は理論的に必要なのか、収束を保証できるのか。
- RQ4統一的な枠組み(Symbolic Index)は適応的推論システムが探索と実行を切り替える指針となり得るか。
主な発見
| Method | GSM8K Acc. (%) | GSM8K Tokens | ProntoQA Acc. (%) | ProntoQA Tokens | ProsQA Acc. (%) | ProsQA Tokens |
|---|---|---|---|---|---|---|
| CoT | 42.9±0.2 | 25.0 | 98.8±0.8 | 92.5 | 77.5±1.9 | 49.4 |
| No-CoT | 16.5±0.5 | 2.2 | 93.8±0.7 | 3.0 | 76.7±1.0 | 8.2 |
| COCONUT | 34.1±1.5 | 8.2 | 99.8±0.2 | 9.0 | 97.0±0.3 | 14.2 |
| - w/o curriculum | 14.4±0.8 | 8.2 | 52.4±0.4 | 9.0 | 76.1±0.2 | 14.2 |
- Explicit CoT は高い実行精度を達成する一方で、決定的確実性が高いため探索が不十分である。
- Latent CoT は低い確実性で探索を可能にするが、ノイズ蓄積により象徴的精度が損なわれる。
- Symbolic Index I_S がトレードオフを支配する:I_S が高いと大きな意思決定マージンと頑健な実行が得られる一方で探索が抑制される。低い I_S は探索を促すが摂動感度のリスクを伴う。
- 分布のずれを避け、専門家に近い推論へ収束するためにはカリキュラム学習が理論的に必要であり、収束は十分性がある(定理 5.1、5.2)。
- 実証的結果は Latent CoT が ProsQA で低い I_S を維持する一方、0.2–0.5 の範囲であり、GSM8K は離散化を欠くことと整合する;一方 explicit CoT は確率質量を集中させ(I_S がほぼ 1 付近)、これも理論と一致する。
- ノイズ耐性の分析は CoT の離散化が摂動に対するシールドとなる一方、Latent CoT はノイズにより連続的に劣化することを示す(定理 4.8)。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。