QUICK REVIEW

[논문 리뷰] Difficulty-Estimated Policy Optimization

Yu Zhao, Fan Jiang|arXiv (Cornell University)|2026. 02. 06.

Reinforcement Learning in Robotics인용 수 0

한 줄 요약

DEPO는 롤아웃 이전에 낮은 유용도의 학습 샘플을 필터링하는 온라인 난이도 추정기를 도입하여, 수학 추론 벤치마크에서 성능을 유지하거나 향상시키면서 최대 2배의 롤아웃 비용 절감을 달성합니다.

ABSTRACT

Recent advancements in Large Reasoning Models (LRMs), exemplified by DeepSeek-R1, have underscored the potential of scaling inference-time compute through Group Relative Policy Optimization (GRPO). However, GRPO frequently suffers from gradient signal attenuation when encountering problems that are either too trivial or overly complex. In these scenarios, the disappearance of inter-group advantages makes the gradient signal susceptible to noise, thereby jeopardizing convergence stability. While variants like DAPO attempt to rectify gradient vanishing, they do not alleviate the substantial computational overhead incurred by exhaustive rollouts on low-utility samples. In this paper, we propose Difficulty-Estimated Policy Optimization (DEPO), a novel framework designed to optimize the efficiency and robustness of reasoning alignment. DEPO integrates an online Difficulty Estimator that dynamically assesses and filters training data before the rollout phase. This mechanism ensures that computational resources are prioritized for samples with high learning potential. Empirical results demonstrate that DEPO achieves up to a 2x reduction in rollout costs without compromising model performance. Our approach significantly lowers the computational barrier for training high-performance reasoning models, offering a more sustainable path for reasoning scaling. Code and data will be released upon acceptance.

연구 동기 및 목표

GRPO 기반 RLVR에서 롤아웃 비용과 그래디언트 노이즈를 줄이는 것을 목표로 합니다.
롤아웃 전에 샘플 이점을 예측하는 온라인 난이도 추정기를 제안합니다.
필터링이 학습 신호를 보존하면서 효율성과 안정성을 개선하는지 보여줍니다.
기존 RLVR 프레임워크 및 데이터 큐레이션 전략과의 플러그-앤-플레이 호환성을 시연합니다.

제안 방법

GRPO에 경량 BERT 기반 난이도 추정기를 통합하여 각 프롬프트의 예상 이점을 예측합니다.
세 가지 구성 요소(이점 추정 손실, 증류 손실(액터 혼란도), 올바른 난이도 순서를 강제하기 위한 쌍 순위 손실)와 함께 온라인으로 함께 학습기(액터) 를 학습합니다.
롤아웃 전에 0 이점 샘플을 필터링하여 계산량을 줄이면서 GRPO 파생 이점으로 추정기를 업데이트합니다.
필터링 없이 예측기 워밍업 단계와 온라인 필터링을 활성화하는 두 단계 학습을 채택합니다.
확신 임계값에 따라 예측기를 사용하여 쿼리를 이질적 모델로 라우팅하는 온라인 모델-라우터 기능을 제공합니다.

실험 결과

연구 질문

RQ1온라인 난이도 추정이 GRPO 기반 RLVR에서 롤아웃 비용을 감소시키면서 추론 성능을 손실 없이 유지할 수 있습니까?
RQ2다른 학습 목표(이점 추정, 증류, 랭킹)가 난이도 추정기의 품질과 안정성에 어떤 영향을 미칩니까?
RQ3온라인 필터링이 수학 추론 벤치마크 전체에서 학습 효율성과 학습 신호 품질에 어떤 영향을 줍니까?
RQ4추정기가 용량이 다른 모델 간의 정확도와 효율성의 균형을 맞추는 온라인 라우터로 작동할 수 있습니까?

주요 결과

Dataset	Method	GSM8K	MATH	AMC23	Olympiad	Minerva	Avg.	GPU Hours ↓
DAPO-MATH-17K	Qwen2.5-1.5B-Instruct	75.6	48.1	38.4	15.8	11.4	37.9	528 (1.0 ×)
DAPO	-	78.5	50.1	39.3	17.8	13.1	39.8	905 (1.7 ×)
Polaris	-	77.1	47.3	40.8	16.4	11.8	38.7	584 (1.1 ×)
DEPO	-	77.0	48.9	42.3	16.7	12.2	39.4	530 (1.0 ×)
– ranking loss	-	76.6	48.0	40.9	16.3	12.1	38.8	-
– distill loss	-	75.2	48.0	39.0	15.9	12.0	38.0	-
+ DAPO w/o Dynamic Sampling	-	78.3	50.6	41.7	17.5	13.3	40.3	-
Qwen2.5-7B-Instruct	GRPO	91.9	64.1	63.4	27.9	25.0	54.5	776 (1.0 ×)
Qwen2.5-7B-Instruct	DEPO	92.3	63.9	63.5	28.7	25.5	54.8	782 (1.0 ×)
OR1	Qwen2.5-7B-Instruct	GRPO	92.0	63.3	48.9	26.4	26.2	51.4	-
OR1	Qwen2.5-7B-Instruct	DEPO	91.8	64.0	51.0	27.6	26.6	52.2	-
NT	Qwen2.5-7B-Instruct	GRPO	90.1	62.7	48.9	25.3	23.8	50.1	-
NT	Qwen2.5-7B-Instruct	DEPO	90.8	63.2	53.2	25.6	25.0	51.6	-

DEPO는 여러 수학 추론 벤치마크에서 비교 가능한 또는 향상된 정확도로 롤아웃 비용을 감소시킵니다.
DEPO는 GRPO와 같은 경쟁적 기준선에 비해 최대 2x의 롤아웃 효율성을 달성하면서 전체 학습 지연 시간은 유사하게 유지합니다.
랭킹 손실과 증류 손실을 모두 Incorporating 하는 것이 견고한 난이도 구분과 더 나은 하향식 성능에 중요합니다.
온라인 난이도 추정기는 짧은 워밍업 후 수렴하며 실제 보상과 근접하게 추적하여 저정보 프롬프트의 효과적인 가지치기를 가능하게 합니다.
DEPO는 기존 방법과 직교적이며 상호 보완적이며 이를 결합하면 성능이 더 향상될 수 있습니다.
DEPO를 온라인 라우터로 사용하면 더 큰 모델과의 경쟁력 있는 성능을 보이며 더 큰 쿼리 비율을 더 작고 저렴한 모델로 라우팅합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.