Skip to main content
QUICK REVIEW

[论文解读] Process Supervision for Chain-of-Thought Reasoning via Monte Carlo Net Information Gain

Corentin Royer, Debarun Bhattacharjya|arXiv (Cornell University)|Mar 18, 2026
Topic Modeling被引用 0
一句话总结

MCNIG 自动为过程奖励模型生成逐步标签,以监督链式思考推理,实现线性复杂度并提高在数学、编程和 SQL 任务中的最佳-K 回答选择。

ABSTRACT

Multi-step reasoning improves the capabilities of large language models (LLMs) but increases the risk of errors propagating through intermediate steps. Process reward models (PRMs) mitigate this by scoring each step individually, enabling fine-grained supervision and improved reliability. Existing methods for training PRMs rely on costly human annotations or computationally intensive automatic labeling. We propose a novel approach to automatically generate step-level labels using Information Theory. Our method estimates how each reasoning step affects the likelihood of the correct answer, providing a signal of step quality. Importantly, it reduces computational complexity to $\mathcal{O}(N)$, improving over the previous $\mathcal{O}(N \log N)$ methods. We demonstrate that these labels enable effective chain-of-thought selection in best-of-$K$ evaluation settings across diverse reasoning benchmarks, including mathematics, Python programming, SQL, and scientific question answering. This work enables scalable and efficient supervision of LLM reasoning, particularly for tasks where error propagation is critical.

研究动机与目标

  • 在大型语言模型中推动稳健的多步推理,以防止链式思考(CoT)中的错误传播。
  • 提出一种可扩展的方法,自动标注训练过程奖励模型(PRMs)的推理步骤。
  • 证明基于 MCNIG 的监督在逐步评估和最佳-K 选择方面在多领域有所提升。
  • 展示相较于现有自动标注方法的效率提升,并将 PRMs 扩展到编程和文本到 SQL 的任务。

提出的方法

  • 使用带结构化格式的基础大语言模型(LLM)生成每个问题的多条 CoT 轨迹,并使用验证器检查最终答案。
  • 使用信息增益(IG)和蒙特卡洛净信息增益(MCNIG)计算逐步信息量,以对比正确轨迹与错误轨迹。
  • 基于 MCNIG 并结合领域特定阈值分配二元逐步标签,以归一化评分尺度。
  • 训练一个过程奖励模型(PRM),使用分隔符输入并在步骤分隔处放置二元分类头来预测逐步正确性。
  • 将 ORM 作为基线,评估仅在完整推理链条结束后的最终结果。
  • 在多样化基准上使用最佳-K 选择评估 PRMs 和 ORMs,并进行模型扩展性测试(8B 与 14B)。

实验结果

研究问题

  • RQ1MCNIG 是否能为跨任务的逐步推理质量提供可靠、可扩展的信号?
  • RQ2相对于 IG 标注和 ORM 基线,MCNIG 标注是否能提升基于 PRM 的最佳-K 性能?
  • RQ3MCNIG 如何影响数学、编程和文本到 SQL 领域的 PRM 性能,包括分布外情景?

主要发现

  • 与简单的信息增益相比,MCNIG 标注在所有数据集上提供更可靠的逐步监督。
  • 使用 MCNIG 训练的 PRM 在最佳-K 选择中优于用 IG 训练的 PRM、ORM 基线和多数投票,且随着 K 增大尤为明显。
  • MCNIG 将标注所需的令牌量降至约 1.1e8,是 OmegaPRM 的七分之一,显著提升标注速度。
  • 将模型规模从 8B 提升到 14B 时,MCNIG 训练的 PRM 的平均性能提升约 1.1 个百分点。
  • 在所测试的方法中,MCNIG 训练的 PRM 在 Out-of-Distribution UGPhysics 数据集取得最高准确率(MCNIG 14B:15.1%)。
  • 在 ProcessBench 上,MCNIG 基于的 PRM 在已报道的基线中达到接近最先进的 F1 分数(MCNIG 14B 略高于 QwenPRM 7B)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。