Skip to main content
QUICK REVIEW

[논문 리뷰] RePO: Bridging On-Policy Learning and Off-Policy Knowledge through Rephrasing Policy Optimization

Linxuan Xia, Xiaolong Yang|arXiv (Cornell University)|2026. 02. 11.
Topic Modeling인용 수 0
한 줄 요약

RePO는 오프폴리시 지식을 소화하고 이를 모델의 온폴리시 스타일로 재구성하는 두 단계의 Rephrasing Policy Optimization 프레임워크를 도입합니다. 품질이 낮은 롤아웃을 재구성된 고품질 트래젝토리로 대체하여 하드 샘플 학습을 개선하는 동시에 온폴리시 안정성을 유지합니다.

ABSTRACT

Aligning large language models (LLMs) on domain-specific data remains a fundamental challenge. Supervised fine-tuning (SFT) offers a straightforward way to inject domain knowledge but often degrades the model's generality. In contrast, on-policy reinforcement learning (RL) preserves generality but fails to effectively assimilate hard samples that exceed the model's current reasoning level. Recent off-policy RL attempts improve hard sample utilization, yet they suffer from severe training instability due to the forced distribution shift toward off-policy knowledge. To reconcile effective off-policy knowledge absorption with the stability of on-policy RL, we propose Rephrasing Policy Optimization (RePO). In RePO, the policy model is prompted to first comprehend off-policy knowledge and then rephrase it into trajectories that conform to its own stylistic and parametric distribution. RePO dynamically replaces low-reward rollouts with these rephrased, high-quality trajectories. This strategy guides the model toward correct reasoning paths while strictly preserving on-policy training dynamics. Experiments on several benchmarks demonstrate that RePO improves hard-sample utilization and outperforms existing baselines, achieving state-of-the-art performance.

연구 동기 및 목표

  • 도메인 특화 지식을 LLM에 주입하되 일반적 추론 능력을 저해하지 않는 도전 과제를 자극합니다.
  • 온폴리시 RL과 오프폴리시 데이터의 결합으로 하드 샘플에서의 불안정성과 비효율성을 해결합니다.
  • 모델의 분포를 유지하면서 오프폴리시 가이던스를 흡수하는 원칙적인 메커니즘을 제안합니다.

제안 방법

  • 지식 내부화: (1) 오프폴리시 트래젝토리를 모델의 네이티브 스타일로 재구성하는 재구성 프롬프트를 통해 지식을 내부화합니다.; (2) 다이내믹 가이던스: 그룹 실패률 임계치를 초과할 때 보상 낮은 온폴리시 롤아웃을 재구성된 o_rep으로 대체합니다.
  • 오프폴리시 지식에 조건화된 공동 확률 트래젝토리 샘플링을 사용하여 프롬프트로부터 o_rep를 생성합니다.  P(q,k).
  • 그룹 보상 분포를 기반으로 한 다이내믹 가이던스 전략을 적용하고 하이퍼파라미터 delta(보상 임계치)와 rho(최소 실패율)를 사용하여 worst on-policy 롤아웃에 대해 o_rep을 대체할지 결정합니다.
  • GRPO 목표를 사용하여 최종 롤아웃 그룹을 최적화하고 업데이트가 모델의 분포와 일치하도록 보장합니다.

실험 결과

연구 질문

  • RQ1RePO가 온폴리시 학습의 불안정을 초래하지 않으면서 오프폴리시 지식을 효과적으로 활용할 수 있을까?
  • RQ2오프폴리시 가이던스를 모델의 고유 어휘로 재구성하는 것이 하드 샘플로부터의 학습을 향상시키는가?
  • RQ3수학 및 지식 벤치마크에서 GRPO와 LUFFY에 비해 안정성과 성능 측면에서 RePO가 어떻게 비교되는가?

주요 결과

MethodGPQAAIME24AIME25AMCMATH-500MinervaOlympiad
Qwen3-8B58.175.166.488.996.251.169.2
GRPO59.275.165.889.394.865.469.8
LUFFY49.875.564.187.994.066.568.7
RePO (Ours)61.875.872.588.694.868.168.1
  • RePO는 여러 벤치마크에서 표준 온폴리시 RL 베이스라인 및 기존의 오프폴리시 방법을 능가하며 최첨단 결과를 달성합니다.
  • RePO는 GPQA 및 AIME 데이터셋에서 GRPO에 비해 하드 샘플 활용을 크게 개선합니다.
  • RePO는 LUFFY와 달리 GPQA에서 불안정성을 보이지 않으며, LUFFY는 어휘 불일치로 인한 문제가 발생할 수 있습니다.
  • 금융 도메인 벤치마크에서 RePO는 일반적 추론 능력을 유지하면서 지식 주입을 강하게 제공합니다.
  • 훈련 안정성 분석은 RePO가 일관된 엔트로피, GradNorm, 보상을 달성하여 안정적인 업데이트를 반영함을 시사합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.