Skip to main content
QUICK REVIEW

[论文解读] Understanding Reasoning in LLMs through Strategic Information Allocation under Uncertainty

Jeonghye Kim, Xufang Luo|arXiv (Cornell University)|Mar 16, 2026
Logic, Reasoning, and Knowledge被引用 0
一句话总结

该论文提出一个信息理论框架,将推理分成过程信息与认知性语言化,外化不确定性是持续信息获取和强推理性能的关键,超越像“Wait”这样的表面代币。

ABSTRACT

LLMs often exhibit Aha moments during reasoning, such as apparent self-correction following tokens like "Wait," yet their underlying mechanisms remain unclear. We introduce an information-theoretic framework that decomposes reasoning into procedural information and epistemic verbalization - the explicit externalization of uncertainty that supports downstream control actions. We show that purely procedural reasoning can become informationally stagnant, whereas epistemic verbalization enables continued information acquisition and is critical for achieving information sufficiency. Empirical results demonstrate that strong reasoning performance is driven by uncertainty externalization rather than specific surface tokens. Our framework unifies prior findings on Aha moments and post-training experiments, and offers insights for future reasoning model design.

研究动机与目标

  • 为LLMs中的推理提供一个正式化的解释,不限于纯粹逐步执行的过程性推理。
  • 将认知性语言化定义为外化的不确定性,引导后续推理。
  • 定义信息充足性,并分析外化的不确定性在过程性推理停滞时如何帮助信息获取。
  • 实证表明,不确定性外化而非表面代币,驱动强推理和自我纠错。

提出的方法

  • 将推理形式化为带有增强状态的自贝叶斯推理,区分过程性和认知性成分。
  • 定义信息增益和信息充足性,以衡量向正确答案前进的进展。
  • 刻画纯过程性推理的局限性,并在发散情况下识别失败模式。
  • 将认知性语言化作为一种可外化的认知信号,使持续获取信息成为可能。
  • 在测试阶段对认知性代币进行操控并进行蒸馏,以研究认知性语言化在学习与表现中的作用。

实验结果

研究问题

  • RQ1在不确定性下,过程性推理和认知性语言化在LLM推理中起到哪些信息性作用?
  • RQ2在推理轨迹中,外化不确定性如何影响信息增益和信息充足性?
  • RQ3像“Wait”这样的代币是否在因果上反映认知性语言化,还是它们只是更深层机制的表面指示?
  • RQ4保留认知性语言化的蒸馏与训练如何影响推理性能?

主要发现

  • 认知性语言化在过程性推理停滞时仍能推动持续信息获取,促进信息充足性。
  • 代币级别的不确定性(如下一个代币熵)并不能可靠预测向正确答案的进展;轨迹级别的认知信号才是关键。
  • 认知性语言化,而非特定代币,与更强的推理和跨模型/任务的自我纠错行为相关。
  • 抑制认知性代币会降低性能,而引入它们或使用带有认知线索的少量示例提示则能提升推理表现。
  • 保留认知性语言化的蒸馏对有效迁移至关重要;移除认知不确定性信号会伤害性能,即使过程性轨迹正确。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。