[論文レビュー] RePO: Bridging On-Policy Learning and Off-Policy Knowledge through Rephrasing Policy Optimization
RePOはオフポリシー知識を取り込み、それをモデルのオンポリシースタイルへ再表現する2段階のRephrasing Policy Optimizationフレームワークを導入し、低品質のロールアウトを再表現された高品質な軌跡に置換し、 hard-sample learningを向上させつつオンポリシーの安定性を維持する。
Aligning large language models (LLMs) on domain-specific data remains a fundamental challenge. Supervised fine-tuning (SFT) offers a straightforward way to inject domain knowledge but often degrades the model's generality. In contrast, on-policy reinforcement learning (RL) preserves generality but fails to effectively assimilate hard samples that exceed the model's current reasoning level. Recent off-policy RL attempts improve hard sample utilization, yet they suffer from severe training instability due to the forced distribution shift toward off-policy knowledge. To reconcile effective off-policy knowledge absorption with the stability of on-policy RL, we propose Rephrasing Policy Optimization (RePO). In RePO, the policy model is prompted to first comprehend off-policy knowledge and then rephrase it into trajectories that conform to its own stylistic and parametric distribution. RePO dynamically replaces low-reward rollouts with these rephrased, high-quality trajectories. This strategy guides the model toward correct reasoning paths while strictly preserving on-policy training dynamics. Experiments on several benchmarks demonstrate that RePO improves hard-sample utilization and outperforms existing baselines, achieving state-of-the-art performance.
研究の動機と目的
- ドメイン固有の知識をLLMsに注入する課題を、一般的な推論を犠牲にせずに動機づける。
- オンポリシーRLとオフポリシーデータを組み合わせる際の不安定性とハードサンプルの非効率性に対処する。
- モデルの分布を保ちつつ、オフポリシーの指示を同化する principledな仕組みを提案する。
提案手法
- オフポリシー知識を取り込む二段階の知識同化を導入します:(1) 知識内部化: オフポリシー軌跡を再表現プロンプトを介してモデルのネイティブスタイルへ再表現; (2) ダイナミックガイダンス: グループ報酬閾値を超えた場合、低報酬のオンポリシーロールアウトを再表現軌跡で置換します。
- オフポリシー知識に条件付けられた結合確率軌跡サンプリングを用いて o_rep をプロンプトから生成します(P(q,k))。
- Delta(報酬閾値)およびrho(最小失敗率)というハイパーパラメータを持つ Group Reward Distribution に基づく Dynamic Guidance Strategy を適用し、最悪のオンポリシーロールアウトと o_rep を置換する時期を決定します。
- 最終ロールアウト群を GRPO 目的で最適化し、更新がモデルの分布と整合することを保証します。
実験結果
リサーチクエスチョン
- RQ1RePOはオンポリシー学習を安定性を崩さずにオフポリシー知識を効果的に活用できるか。
- RQ2オフポリシー指示をモデルのネイティブ語彙へ再表現することはハードサンプルからの学習を改善するか。
- RQ3GRPOおよびLUFFYと比較して、数学と知識ベンチマークで安定性とパフォーマンスはどうなるか。
主な発見
| Method | GPQA | AIME24 | AIME25 | AMC | MATH-500 | Minerva | Olympiad |
|---|---|---|---|---|---|---|---|
| Qwen3-8B | 58.1 | 75.1 | 66.4 | 88.9 | 96.2 | 51.1 | 69.2 |
| GRPO | 59.2 | 75.1 | 65.8 | 89.3 | 94.8 | 65.4 | 69.8 |
| LUFFY | 49.8 | 75.5 | 64.1 | 87.9 | 94.0 | 66.5 | 68.7 |
| RePO (Ours) | 61.8 | 75.8 | 72.5 | 88.6 | 94.8 | 68.1 | 68.1 |
- RePOは標準的なオンポリシーRLのベースラインおよび既存のオフポリシー手法を上回り、いくつかのベンチマークで最先端の結果を達成します。
- RePOはGRPOと比較してGPQAおよびAIMEデータセットで hard-sample 活用を大幅に改善します。
- RePOはLUFFYのような不安定さを示さず堅牢性と安定性を維持しますが、GPQAでは語彙不整合の問題が生じ得ます。
- 金融分野のベンチマークにおいて、RePOは一般的な推論能力を保ちつつ強力な知識注入を実現します。
- トレーニング安定性の解析は、RePOが一貫したエントロピー、GradNorm、報酬を達成し、安定した更新を反映していることを示します。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。