Skip to main content
QUICK REVIEW

[논문 리뷰] SAPO: Self-Adaptive Process Optimization Makes Small Reasoners Stronger

Kaiyuan Chen, Guangmin Zheng|arXiv (Cornell University)|2026. 01. 28.
Explainable Artificial Intelligence (XAI)인용 수 0
한 줄 요약

SAPO는 소형 언어 모델에 대해 최초 오류 단계의 국소화와 후향 추정(posterior estimation)을 사용하여 추론자-검증자 간의 격차를 줄이고, 수학 및 코드 작업의 다단계 추론을 향상시키기 위해 자체 적응형 프로세스 감독 접근법을 도입한다.

ABSTRACT

Existing self-evolution methods overlook the influence of fine-grained reasoning steps, which leads to the reasoner-verifier gap. The computational inefficiency of Monte Carlo (MC) process supervision further exacerbates the difficulty in mitigating the gap. Motivated by the Error-Related Negativity (ERN), which the reasoner can localize error following incorrect decisions, guiding rapid adjustments, we propose a Self-Adaptive Process Optimization (SAPO) method for self-improvement in Small Language Models (SLMs). SAPO adaptively and efficiently introduces process supervision signals by actively minimizing the reasoner-verifier gap rather than relying on inefficient MC estimations. Extensive experiments demonstrate that the proposed method outperforms most existing self-evolution methods on two challenging task types: mathematics and code. Additionally, to further investigate SAPO's impact on verifier performance, this work introduces two new benchmarks for process reward models in both mathematical and coding tasks.

연구 동기 및 목표

  • 정밀한 추론 단계 피드백을 다룸으로써 소형 언어 모델(SLM)의 효율적인 자가 진화를 촉진한다.
  • 무거운 몬테카를로 롤아웃 없이 추론자-검증자 간의 격차를 줄인다.
  • 첫 오류를 국소화하고 온라인으로 검증을 개선하는 프로세스 감독 루프를 개발한다.
  • 수학 및 코딩 작업에서 프로세스 레벨 검증을 위한 벤치마크를 도입한다.
  • 수학 및 코드 추론 벤치마크에서 기존의 자가 진화 방법보다 SAPO가 우수함을 보여준다.

제안 방법

  • 검증자가 단계별 보상을 미리 할당하고 잠재적 첫 오류 위치를 식별하는 자기 반복 프레임워크를 채택한다.
  • 온라인의 첫 오류 탐지를 사용해 검증을 위한 대상이 되는 단계별 라벨을 제시한다.
  • 식별된 단계를 재검토하여 후향 추정(posterior estimation)을 수행하고 추론 경로를 수정한다.
  • 라벨링된 단계 데이터에 대한 MSE 손실을 통해 단계별 검증을 위한 프로세스 보상 모델(PRM)을 학습한다.
  • 선호 데이터셋을 사용해 추론자와 검증자의 정렬(ORPO) 기반 목표를 적용하여 일치시킨다.
  • 검증자 가이드 프로세스 감독을 사용하여 ORPO 기반의 정렬 목표로 추론자를 반복적으로 정제한다.

실험 결과

연구 질문

  • RQ1온라인의 첫 오류 프로세스 감독이 몬테카를로 롤아웃 기반 방법보다 추론자-검증자 간의 격차를 더 효율적으로 줄일 수 있는가?
  • RQ2단계별 감독 신호가 수학 및 코딩 작업에 대한 검증 정확도와 전반적인 추론을 작은 언어 모델에서 향상시키는가?
  • RQ3도메인 내외 설정에서 SAPO가 기존의 자가 진화 기준선과 어떻게 비교되는가?
  • RQ4프로세스 라벨링에 대한 FLOPs와 월 실제 시간 측면에서 SAPO의 효율성 트레이드오프는 무엇인가?
  • RQ5검증자 모델 편향이 자가 검증에 어떤 영향을 미치며, 온라인 동기화가 이를 완화할 수 있는가?

주요 결과

  • SAPO는 도메인 내외 설정에서 수학 및 코드 작업에 대해 대부분의 기준선보다 일관되게 우수하다.
  • 온라인의 첫 오류 프로세스 감독은 추론자-검증자 격차를 줄이고 몬테카를로 기반 방법보다 더 나은 검증 성능을 보인다.
  • SAPO는 첫 오류 위치에 집중하는 방식으로 전체 단계별 롤아웃보다 프로세스 라벨링 비용을 줄여 효율성을 높인다.
  • SAPRM 검증자는 SAPO로 학습된 편향이 더 낮고 검증 성능이 더 우수하며, 특히 코딩 작업에서 그렇다.
  • 제거 연구는 각 구성요소(PF, DV, RM, EP)가 성능에 기여함을 보여주며, PF와 RM이 PRM 효과에 특히 큰 영향을 준다.
  • 더 많은 반복으로 SAPO의 반복적 개선은 계속 이점을 얻으며 작업 전반에서 확장 가능한 이득을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.