[論文レビュー] SAPO: Self-Adaptive Process Optimization Makes Small Reasoners Stronger
SAPOは、小規模言語モデルの自己適応的プロセス監視アプローチを導入し、最初のエラーステップを局所化し事後推定を用いることでReasoner-Verifierギャップを縮小し、数学とコードのタスクにおける多段階推論を改善します。
Existing self-evolution methods overlook the influence of fine-grained reasoning steps, which leads to the reasoner-verifier gap. The computational inefficiency of Monte Carlo (MC) process supervision further exacerbates the difficulty in mitigating the gap. Motivated by the Error-Related Negativity (ERN), which the reasoner can localize error following incorrect decisions, guiding rapid adjustments, we propose a Self-Adaptive Process Optimization (SAPO) method for self-improvement in Small Language Models (SLMs). SAPO adaptively and efficiently introduces process supervision signals by actively minimizing the reasoner-verifier gap rather than relying on inefficient MC estimations. Extensive experiments demonstrate that the proposed method outperforms most existing self-evolution methods on two challenging task types: mathematics and code. Additionally, to further investigate SAPO's impact on verifier performance, this work introduces two new benchmarks for process reward models in both mathematical and coding tasks.
研究の動機と目的
- 小規模言語モデル(SLM)の効率的な自己進化を、細粒度の推論ステップフィードバックに対処して促進する。
- Monte Carloのロールアウトを多用せず、Reasoner-Verifierギャップを縮小する。
- 最初のエラーを局所化し、オンラインで検証を改良するプロセス監視ループを開発する。
- 数学とコーディングタスクにおけるプロセスレベル検証のベンチマークを導入する。
- SAPOが数学とコード推論のベンチマーク全般で既存の自己進化手法を上回ることを示す。
提案手法
- verifierがステップレベルの報酬を事前割り当て、潜在的な最初のエラーポジションを特定する自己反復フレームワークを採用する。
- オンラインの最初のエラーデテクションを用い、検証のためのターゲットとなるステップレベルラベルを提案する。
- 特定されたステップを再検討し、事後推定を行い推論軌道を修正する。
- ラベル付きステップデータに対してMSE損失でステップ別検証のためのProcess Reward Model(PRM)を訓練する。
- ORPOベースの目的を適用して、好みデータセットを用いてReasonerとVerifierを整合させる。
- verifierガイドのプロセス監督を用いた整合性目的(ORPO)を用いてReasonerを反復的に洗練する。
実験結果
リサーチクエスチョン
- RQ1オンラインの最初のエラープロセス監督はMonte Carloロールアウトベースの方法よりReasoner-Verifierギャップを効率的に縮小できるか?
- RQ2ステップレベルの監督信号は、数学とコーディングタスクにおける小型LMの検証精度と全体的な推論を改善するか?
- RQ3SAPOは同域内・異域内の設定で既存の自己進化ベースラインとどう比較されるか?
- RQ4プロセスラベリングのFLOPsおよび wall-clock timeの観点でSAPOの効率トレードオフはどうか?
- RQ5Verifier-modelのバイアスは自己検証にどのような影響を与え、オンライン同期はそれを緩和できるか?
主な発見
- SAPOは、同域内・異域内の両方の数学・コードタスクでほとんどのベースラインを一貫して上回る。
- オンラインの最初のエラープロセス監督はReasoner-Verifierギャップを縮小し、Monte Carloベースの方法よりも検証性能が高い。
- SAPOは効率性の向上を実現し、全ステップのローアウトよりも最初のエラーポジションに焦点を当てることでプロセスラベリングコストを削減する。
- SAPOで訓練されたSAPRM検証器は、特にコーディングタスクでバイアスが低く検証性能が高い。
- アブレーション研究は、各コンポーネント(PF、DV、RM、EP)が性能に寄与し、特にPFとRMがPRMの有効性に大きく影響することを示す。
- SAPOの反復的改善はより多くの反復で引き続き恩恵を受け、タスク間でスケーラブルな改良を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。