QUICK REVIEW

[논문 리뷰] SAPO: Self-Adaptive Process Optimization Makes Small Reasoners Stronger

Kaiyuan Chen, Guangmin Zheng|arXiv (Cornell University)|2026. 01. 28.

Explainable Artificial Intelligence (XAI)인용 수 0

한 줄 요약

SAPO는 소형 언어 모델에 대해 최초 오류 단계의 국소화와 후향 추정(posterior estimation)을 사용하여 추론자-검증자 간의 격차를 줄이고, 수학 및 코드 작업의 다단계 추론을 향상시키기 위해 자체 적응형 프로세스 감독 접근법을 도입한다.

ABSTRACT

Existing self-evolution methods overlook the influence of fine-grained reasoning steps, which leads to the reasoner-verifier gap. The computational inefficiency of Monte Carlo (MC) process supervision further exacerbates the difficulty in mitigating the gap. Motivated by the Error-Related Negativity (ERN), which the reasoner can localize error following incorrect decisions, guiding rapid adjustments, we propose a Self-Adaptive Process Optimization (SAPO) method for self-improvement in Small Language Models (SLMs). SAPO adaptively and efficiently introduces process supervision signals by actively minimizing the reasoner-verifier gap rather than relying on inefficient MC estimations. Extensive experiments demonstrate that the proposed method outperforms most existing self-evolution methods on two challenging task types: mathematics and code. Additionally, to further investigate SAPO's impact on verifier performance, this work introduces two new benchmarks for process reward models in both mathematical and coding tasks.

연구 동기 및 목표

정밀한 추론 단계 피드백을 다룸으로써 소형 언어 모델(SLM)의 효율적인 자가 진화를 촉진한다.
무거운 몬테카를로 롤아웃 없이 추론자-검증자 간의 격차를 줄인다.
첫 오류를 국소화하고 온라인으로 검증을 개선하는 프로세스 감독 루프를 개발한다.
수학 및 코딩 작업에서 프로세스 레벨 검증을 위한 벤치마크를 도입한다.
수학 및 코드 추론 벤치마크에서 기존의 자가 진화 방법보다 SAPO가 우수함을 보여준다.

제안 방법

검증자가 단계별 보상을 미리 할당하고 잠재적 첫 오류 위치를 식별하는 자기 반복 프레임워크를 채택한다.
온라인의 첫 오류 탐지를 사용해 검증을 위한 대상이 되는 단계별 라벨을 제시한다.
식별된 단계를 재검토하여 후향 추정(posterior estimation)을 수행하고 추론 경로를 수정한다.
라벨링된 단계 데이터에 대한 MSE 손실을 통해 단계별 검증을 위한 프로세스 보상 모델(PRM)을 학습한다.
선호 데이터셋을 사용해 추론자와 검증자의 정렬(ORPO) 기반 목표를 적용하여 일치시킨다.
검증자 가이드 프로세스 감독을 사용하여 ORPO 기반의 정렬 목표로 추론자를 반복적으로 정제한다.

실험 결과

연구 질문

RQ1온라인의 첫 오류 프로세스 감독이 몬테카를로 롤아웃 기반 방법보다 추론자-검증자 간의 격차를 더 효율적으로 줄일 수 있는가?
RQ2단계별 감독 신호가 수학 및 코딩 작업에 대한 검증 정확도와 전반적인 추론을 작은 언어 모델에서 향상시키는가?
RQ3도메인 내외 설정에서 SAPO가 기존의 자가 진화 기준선과 어떻게 비교되는가?
RQ4프로세스 라벨링에 대한 FLOPs와 월 실제 시간 측면에서 SAPO의 효율성 트레이드오프는 무엇인가?
RQ5검증자 모델 편향이 자가 검증에 어떤 영향을 미치며, 온라인 동기화가 이를 완화할 수 있는가?

주요 결과

SAPO는 도메인 내외 설정에서 수학 및 코드 작업에 대해 대부분의 기준선보다 일관되게 우수하다.
온라인의 첫 오류 프로세스 감독은 추론자-검증자 격차를 줄이고 몬테카를로 기반 방법보다 더 나은 검증 성능을 보인다.
SAPO는 첫 오류 위치에 집중하는 방식으로 전체 단계별 롤아웃보다 프로세스 라벨링 비용을 줄여 효율성을 높인다.
SAPRM 검증자는 SAPO로 학습된 편향이 더 낮고 검증 성능이 더 우수하며, 특히 코딩 작업에서 그렇다.
제거 연구는 각 구성요소(PF, DV, RM, EP)가 성능에 기여함을 보여주며, PF와 RM이 PRM 효과에 특히 큰 영향을 준다.
더 많은 반복으로 SAPO의 반복적 개선은 계속 이점을 얻으며 작업 전반에서 확장 가능한 이득을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.