Skip to main content
QUICK REVIEW

[논문 리뷰] Capabilities and Fundamental Limits of Latent Chain-of-Thought

Jiaxuan Zou, Yaozhong Xiong|arXiv (Cornell University)|2026. 02. 01.
Explainable Artificial Intelligence (XAI)인용 수 0
한 줄 요약

이 논문은 Latent CoT와 명시적 CoT 간의 탐색-실행 trade-off를 분석하고, 의사 결정 확실성을 정량화하기 위한 심볼릭 인덱스(Symbolic Index)를 도입하며, 커리큘럼 학습이 이론적으로 필요함을 증명하고, 확실성을 추론 성능에 연결하는 통합 프레임워크를 제공한다.

ABSTRACT

Latent Chain-of-Thought (Latent CoT) models promise efficient reasoning via continuous representations, yet exhibit puzzling performance inconsistencies: excelling at exploration (ProsQA: 97.0%) but failing at computation (GSM8K: 34.1%). We reveal that this trade-off is governed by decisional certainty. Our contributions are threefold: (1) We theoretically characterize the fundamental Exploration-Execution Trade-off, proving that high certainty enables precise execution but inhibits exploration, while low certainty facilitates search but causes error accumulation. (2) We introduce the Symbolic Index--quantifying decisional commitment--as the core mechanism governing this trade-off and establish its causal relationship with both execution stability and exploration capability. (3) We prove that curriculum learning is theoretically necessary, as direct training provably fails due to distributional mismatch. Our framework shifts the design paradigm from binary architectural choices toward adaptive systems that dynamically regulate decisional certainty based on task demands.

연구 동기 및 목표

  • Explicit CoT와 latent CoT가 추론 작업에서 보완적인 실패 모드를 나타내는 이유를 동기부여하고 형식화한다.
  • 의사 결정 확실성을 통해 탐색과 실행의 trade-off를 특성화하고, 의사 결정 확실성을 조절하는 규제 지표로서 Symbolic Index를 도입한다.
  • latent CoT를 학습시키고 분포 간 간극을 연결하기 위해 커리큘럼 학습이 이론적으로 필요함을 보인다.
  • 작업 요구에 따라 의사 결정 확실성을 조절하는 적응 시스템에 대한 프레임워크를 제안한다.

제안 방법

  • CoT를 이산 토큰 생성으로, Latent CoT를 연속 잠재 상태 진화로 모델링한다.
  • Coconut 학습 목표를 형식화하고 이를 이중성(Theorem 4.1)에 의해 Conditional Information Bottleneck(CIB)와 동등하다는 것을 보인다.
  • Symbolic Index(I_S)를 확실성을 조절하는 상위 토큰 확률로 정의하고 분석한다.
  • I_S를 균등 탐색으로부터의 KL 발산과 연결하는 탐색-실행 트레이드-오프 한계를 도출한다(Theorem 4.12).
  • 로그잇 여백을 통해 노이즈에 대한 강건성(Theorem 4.11)과 부분 의사 결정 섭동에 대한 강건성(Theorem 4.8)을 분석한다.
  • 커리큘럼 학습이 필요하고 표준 학습 조건에서 수렴을 보장하기에 충분하다는 것을 보인다(Theorem 5.1, Theorem 5.2).
Figure 1 : Symbolic Index on GSM8K. Latent CoT (shown) maintains a low Symbolic Index ( $\mathcal{I}_{\text{S}}\in[0.2,0.5]$ ), indicating a dispersed probability distribution. It lacks the probability concentration ( $\mathcal{I}_{\text{S}}\approx 1.0$ ) observed in Explicit CoT.
Figure 1 : Symbolic Index on GSM8K. Latent CoT (shown) maintains a low Symbolic Index ( $\mathcal{I}_{\text{S}}\in[0.2,0.5]$ ), indicating a dispersed probability distribution. It lacks the probability concentration ( $\mathcal{I}_{\text{S}}\approx 1.0$ ) observed in Explicit CoT.

실험 결과

연구 질문

  • RQ1명시적 CoT와 잠재 CoT가 작업 간에 보완적 강점과 약점을 보이는 이유는 무엇인가?
  • RQ2의사 결정 확실성은 추론 모델의 탐색과 실행을 어떻게 조절하는가?
  • RQ3Latent CoT에 대해 커리큘럼 학습이 이론적으로 필요한가, 그리고 수렴을 보장할 수 있는가?
  • RQ4일관된 프레임워크(Symbolic Index)가 적응형 추론 시스템이 탐색과 실행 사이를 전환하도록 가이드할 수 있는가?

주요 결과

방법GSM8K 정확도(%)GSM8K 토큰 수ProntoQA 정확도(%)ProntoQA 토큰 수ProsQA 정확도(%)ProsQA 토큰 수
CoT42.9±0.225.098.8±0.892.577.5±1.949.4
No-CoT16.5±0.52.293.8±0.73.076.7±1.08.2
COCONUT34.1±1.58.299.8±0.29.097.0±0.314.2
- w/o curriculum14.4±0.88.252.4±0.49.076.1±0.214.2
  • 명시적 CoT는 높은 실행 정확도는 달성하지만 높은 의사 결정 확실성으로 인해 탐색이 저조하다.
  • 잠재 CoT는 낮은 확실성으로 탐색을 가능하게 하지만, 노이즈 누적이 기호적 정밀도에 해를 끼친다.
  • Symbolic Index I_S는 거래를 지배한다: 높은 I_S는 큰 의사 결정 여백과 강건한 실행을 가져오지만 탐색이 감소하고, 낮은 I_S는 탐색을 가능하게 하지만 섭동 민감성이 증가한다.
  • 배치 간 차이를 피하고 전문가 수준의 추론으로 수렴하기 위해서는 커리큘럼 학습이 이론적으로 필요하다는 것을 보인다(Theorems 5.1, 5.2).
  • 실험 결과 Latent CoT는 ProsQA에서 I_S를 0.2–0.5 수준으로 유지하는 반면 GSM8K는 이산화가 부족하고 이론과 일치하며, 명시적 CoT는 I_S가 1에 가까운 확률 질량을 집중한다.
  • 노이즈 강건성 분석은 CoT의 이산화가 섭동에 대한 방어를 제공하는 반면, Latent CoT는 노이즈와 함께 연속적인 악화를 보인다(Theorem 4.8).
Figure 2 : Symbolic Index on ProsQA. Latent CoT exhibits a stable, low $\mathcal{I}_{\text{S}}$ distribution across reasoning steps. This validates Theorem 4.5 , showing that the model distributes probability mass across multiple latent paths rather than converging to a single token.
Figure 2 : Symbolic Index on ProsQA. Latent CoT exhibits a stable, low $\mathcal{I}_{\text{S}}$ distribution across reasoning steps. This validates Theorem 4.5 , showing that the model distributes probability mass across multiple latent paths rather than converging to a single token.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.