[논문 리뷰] SAPO: Self-Adaptive Process Optimization Makes Small Reasoners Stronger
SAPO는 소형 언어 모델에 대해 최초 오류 단계의 국소화와 후향 추정(posterior estimation)을 사용하여 추론자-검증자 간의 격차를 줄이고, 수학 및 코드 작업의 다단계 추론을 향상시키기 위해 자체 적응형 프로세스 감독 접근법을 도입한다.
Existing self-evolution methods overlook the influence of fine-grained reasoning steps, which leads to the reasoner-verifier gap. The computational inefficiency of Monte Carlo (MC) process supervision further exacerbates the difficulty in mitigating the gap. Motivated by the Error-Related Negativity (ERN), which the reasoner can localize error following incorrect decisions, guiding rapid adjustments, we propose a Self-Adaptive Process Optimization (SAPO) method for self-improvement in Small Language Models (SLMs). SAPO adaptively and efficiently introduces process supervision signals by actively minimizing the reasoner-verifier gap rather than relying on inefficient MC estimations. Extensive experiments demonstrate that the proposed method outperforms most existing self-evolution methods on two challenging task types: mathematics and code. Additionally, to further investigate SAPO's impact on verifier performance, this work introduces two new benchmarks for process reward models in both mathematical and coding tasks.
연구 동기 및 목표
- 정밀한 추론 단계 피드백을 다룸으로써 소형 언어 모델(SLM)의 효율적인 자가 진화를 촉진한다.
- 무거운 몬테카를로 롤아웃 없이 추론자-검증자 간의 격차를 줄인다.
- 첫 오류를 국소화하고 온라인으로 검증을 개선하는 프로세스 감독 루프를 개발한다.
- 수학 및 코딩 작업에서 프로세스 레벨 검증을 위한 벤치마크를 도입한다.
- 수학 및 코드 추론 벤치마크에서 기존의 자가 진화 방법보다 SAPO가 우수함을 보여준다.
제안 방법
- 검증자가 단계별 보상을 미리 할당하고 잠재적 첫 오류 위치를 식별하는 자기 반복 프레임워크를 채택한다.
- 온라인의 첫 오류 탐지를 사용해 검증을 위한 대상이 되는 단계별 라벨을 제시한다.
- 식별된 단계를 재검토하여 후향 추정(posterior estimation)을 수행하고 추론 경로를 수정한다.
- 라벨링된 단계 데이터에 대한 MSE 손실을 통해 단계별 검증을 위한 프로세스 보상 모델(PRM)을 학습한다.
- 선호 데이터셋을 사용해 추론자와 검증자의 정렬(ORPO) 기반 목표를 적용하여 일치시킨다.
- 검증자 가이드 프로세스 감독을 사용하여 ORPO 기반의 정렬 목표로 추론자를 반복적으로 정제한다.
실험 결과
연구 질문
- RQ1온라인의 첫 오류 프로세스 감독이 몬테카를로 롤아웃 기반 방법보다 추론자-검증자 간의 격차를 더 효율적으로 줄일 수 있는가?
- RQ2단계별 감독 신호가 수학 및 코딩 작업에 대한 검증 정확도와 전반적인 추론을 작은 언어 모델에서 향상시키는가?
- RQ3도메인 내외 설정에서 SAPO가 기존의 자가 진화 기준선과 어떻게 비교되는가?
- RQ4프로세스 라벨링에 대한 FLOPs와 월 실제 시간 측면에서 SAPO의 효율성 트레이드오프는 무엇인가?
- RQ5검증자 모델 편향이 자가 검증에 어떤 영향을 미치며, 온라인 동기화가 이를 완화할 수 있는가?
주요 결과
- SAPO는 도메인 내외 설정에서 수학 및 코드 작업에 대해 대부분의 기준선보다 일관되게 우수하다.
- 온라인의 첫 오류 프로세스 감독은 추론자-검증자 격차를 줄이고 몬테카를로 기반 방법보다 더 나은 검증 성능을 보인다.
- SAPO는 첫 오류 위치에 집중하는 방식으로 전체 단계별 롤아웃보다 프로세스 라벨링 비용을 줄여 효율성을 높인다.
- SAPRM 검증자는 SAPO로 학습된 편향이 더 낮고 검증 성능이 더 우수하며, 특히 코딩 작업에서 그렇다.
- 제거 연구는 각 구성요소(PF, DV, RM, EP)가 성능에 기여함을 보여주며, PF와 RM이 PRM 효과에 특히 큰 영향을 준다.
- 더 많은 반복으로 SAPO의 반복적 개선은 계속 이점을 얻으며 작업 전반에서 확장 가능한 이득을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.