Skip to main content
QUICK REVIEW

[论文解读] SAPO: Self-Adaptive Process Optimization Makes Small Reasoners Stronger

Kaiyuan Chen, Guangmin Zheng|arXiv (Cornell University)|Jan 28, 2026
Explainable Artificial Intelligence (XAI)被引用 0
一句话总结

SAPO 引入一种自适应过程监督方法,通过本地化首错步骤和后验估计来缩小推理者与验证者之间的差距,在数学和代码任务中提升多步推理表现。

ABSTRACT

Existing self-evolution methods overlook the influence of fine-grained reasoning steps, which leads to the reasoner-verifier gap. The computational inefficiency of Monte Carlo (MC) process supervision further exacerbates the difficulty in mitigating the gap. Motivated by the Error-Related Negativity (ERN), which the reasoner can localize error following incorrect decisions, guiding rapid adjustments, we propose a Self-Adaptive Process Optimization (SAPO) method for self-improvement in Small Language Models (SLMs). SAPO adaptively and efficiently introduces process supervision signals by actively minimizing the reasoner-verifier gap rather than relying on inefficient MC estimations. Extensive experiments demonstrate that the proposed method outperforms most existing self-evolution methods on two challenging task types: mathematics and code. Additionally, to further investigate SAPO's impact on verifier performance, this work introduces two new benchmarks for process reward models in both mathematical and coding tasks.

研究动机与目标

  • 通过解决细粒度推理步骤反馈,推动小语言模型(SLMs)的高效自进化。
  • 在不进行大量蒙特卡洛回溯的情况下缩小推理者与验证者之间的差距。
  • 开发一个过程监督循环,定位首错并在线改进验证。
  • 为数学与编码任务引入过程级验证基准。
  • 证明 SAPO 在数学与代码推理基准上优于现有自进化方法。

提出的方法

  • 采用自迭代框架,其中验证者预先分配步骤级奖励并识别潜在的首错位置。
  • 使用在线的首错检测提出定向的步骤级标签用于验证。
  • 重新检查识别出的步骤以执行后验估计并纠正推理轨迹。
  • 训练一个过程奖励模型(PRM),通过对标注的步骤数据的均方误差损失进行步骤级验证。
  • 应用基于 ORPO 的目标函数,用偏好数据集将推理者与验证者对齐。
  • 通过基于验证者引导的过程监督,迭代地通过对齐目标(ORPO)来改进推理者。

实验结果

研究问题

  • RQ1在线的首错过程监督是否比基于蒙特卡洛回滚的方法更高效地减少推理者-验证者差距?
  • RQ2步骤级监督信号是否提升数学与编码任务上小型语言模型的验证准确性和整体推理能力?
  • RQ3在域内和域外设置下,SAPO 与现有自进化基线相比的表现如何?
  • RQ4在过程标注的 FLOPs 与耗时方面,SAPO 的效率权衡如何?
  • RQ5验证器模型偏差如何影响自我验证,在线同步是否能缓解?

主要发现

  • SAPO 在数学和代码任务的域内外设置中,持续优于大多数基线。
  • 在线的首错过程监督缩小推理者-验证者差距,验证性能优于基于蒙特卡洛的方法。
  • SAPO 实现了效率提升:通过聚焦首错位置而非全步骤逐步回滚,降低过程标注成本。
  • 使用 SAPO 训练的 SAPRM 验证器偏差更低,验证性能更好,尤其在编码任务上。
  • 消融研究表明各组成部分(PF、DV、RM、EP)都对性能有贡献,PF 和 RM 对 PRM 的有效性尤为显著。
  • SAPO 的迭代改进在更多迭代下继续受益,显示在各任务上的可扩展性增长。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。