QUICK REVIEW

[논문 리뷰] RePO: Bridging On-Policy Learning and Off-Policy Knowledge through Rephrasing Policy Optimization

Linxuan Xia, Xiaolong Yang|arXiv (Cornell University)|2026. 02. 11.

Topic Modeling인용 수 0

한 줄 요약

RePO는 오프폴리시 지식을 소화하고 이를 모델의 온폴리시 스타일로 재구성하는 두 단계의 Rephrasing Policy Optimization 프레임워크를 도입합니다. 품질이 낮은 롤아웃을 재구성된 고품질 트래젝토리로 대체하여 하드 샘플 학습을 개선하는 동시에 온폴리시 안정성을 유지합니다.

ABSTRACT

Aligning large language models (LLMs) on domain-specific data remains a fundamental challenge. Supervised fine-tuning (SFT) offers a straightforward way to inject domain knowledge but often degrades the model's generality. In contrast, on-policy reinforcement learning (RL) preserves generality but fails to effectively assimilate hard samples that exceed the model's current reasoning level. Recent off-policy RL attempts improve hard sample utilization, yet they suffer from severe training instability due to the forced distribution shift toward off-policy knowledge. To reconcile effective off-policy knowledge absorption with the stability of on-policy RL, we propose Rephrasing Policy Optimization (RePO). In RePO, the policy model is prompted to first comprehend off-policy knowledge and then rephrase it into trajectories that conform to its own stylistic and parametric distribution. RePO dynamically replaces low-reward rollouts with these rephrased, high-quality trajectories. This strategy guides the model toward correct reasoning paths while strictly preserving on-policy training dynamics. Experiments on several benchmarks demonstrate that RePO improves hard-sample utilization and outperforms existing baselines, achieving state-of-the-art performance.

연구 동기 및 목표

도메인 특화 지식을 LLM에 주입하되 일반적 추론 능력을 저해하지 않는 도전 과제를 자극합니다.
온폴리시 RL과 오프폴리시 데이터의 결합으로 하드 샘플에서의 불안정성과 비효율성을 해결합니다.
모델의 분포를 유지하면서 오프폴리시 가이던스를 흡수하는 원칙적인 메커니즘을 제안합니다.

제안 방법

지식 내부화: (1) 오프폴리시 트래젝토리를 모델의 네이티브 스타일로 재구성하는 재구성 프롬프트를 통해 지식을 내부화합니다.; (2) 다이내믹 가이던스: 그룹 실패률 임계치를 초과할 때 보상 낮은 온폴리시 롤아웃을 재구성된 o_rep으로 대체합니다.
오프폴리시 지식에 조건화된 공동 확률 트래젝토리 샘플링을 사용하여 프롬프트로부터 o_rep를 생성합니다. P(q,k).
그룹 보상 분포를 기반으로 한 다이내믹 가이던스 전략을 적용하고 하이퍼파라미터 delta(보상 임계치)와 rho(최소 실패율)를 사용하여 worst on-policy 롤아웃에 대해 o_rep을 대체할지 결정합니다.
GRPO 목표를 사용하여 최종 롤아웃 그룹을 최적화하고 업데이트가 모델의 분포와 일치하도록 보장합니다.

실험 결과

연구 질문

RQ1RePO가 온폴리시 학습의 불안정을 초래하지 않으면서 오프폴리시 지식을 효과적으로 활용할 수 있을까?
RQ2오프폴리시 가이던스를 모델의 고유 어휘로 재구성하는 것이 하드 샘플로부터의 학습을 향상시키는가?
RQ3수학 및 지식 벤치마크에서 GRPO와 LUFFY에 비해 안정성과 성능 측면에서 RePO가 어떻게 비교되는가?

주요 결과

Method	GPQA	AIME24	AIME25	AMC	MATH-500	Minerva	Olympiad
Qwen3-8B	58.1	75.1	66.4	88.9	96.2	51.1	69.2
GRPO	59.2	75.1	65.8	89.3	94.8	65.4	69.8
LUFFY	49.8	75.5	64.1	87.9	94.0	66.5	68.7
RePO (Ours)	61.8	75.8	72.5	88.6	94.8	68.1	68.1

RePO는 여러 벤치마크에서 표준 온폴리시 RL 베이스라인 및 기존의 오프폴리시 방법을 능가하며 최첨단 결과를 달성합니다.
RePO는 GPQA 및 AIME 데이터셋에서 GRPO에 비해 하드 샘플 활용을 크게 개선합니다.
RePO는 LUFFY와 달리 GPQA에서 불안정성을 보이지 않으며, LUFFY는 어휘 불일치로 인한 문제가 발생할 수 있습니다.
금융 도메인 벤치마크에서 RePO는 일반적 추론 능력을 유지하면서 지식 주입을 강하게 제공합니다.
훈련 안정성 분석은 RePO가 일관된 엔트로피, GradNorm, 보상을 달성하여 안정적인 업데이트를 반영함을 시사합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.