[논문 리뷰] Understanding R1-Zero-Like Training: A Critical Perspective
이 논문은 R1-Zero 유사 학습에서 기저 모델과 RL을 비판적으로 분석하고, GRPO의 편향을 식별하며, Dr. GRPO를 도입하고, 7B 모델로 AIME 2024에서 최첨단 성능을 달성하는 미니멀리스트 레시피를 시연한다.
DeepSeek-R1-Zero has shown that reinforcement learning (RL) at scale can directly enhance the reasoning capabilities of LLMs without supervised fine-tuning. In this work, we critically examine R1-Zero-like training by analyzing its two core components: base models and RL. We investigate a wide range of base models, including DeepSeek-V3-Base, to understand how pretraining characteristics influence RL performance. Our analysis reveals that DeepSeek-V3-Base already exhibit ''Aha moment'', while Qwen2.5 base models demonstrate strong reasoning capabilities even without prompt templates, suggesting potential pretraining biases. Additionally, we identify an optimization bias in Group Relative Policy Optimization (GRPO), which artificially increases response length (especially for incorrect outputs) during training. To address this, we introduce Dr. GRPO, an unbiased optimization method that improves token efficiency while maintaining reasoning performance. Leveraging these insights, we present a minimalist R1-Zero recipe that achieves 43.3% accuracy on AIME 2024 with a 7B base model, establishing a new state-of-the-art. Our code is available at https://github.com/sail-sg/understand-r1-zero.
연구 동기 및 목표
- 기저 모델의 사전 학습 특성이 R1-Zero 유사 학습에서의 RL 성능에 어떤 영향을 미치는지 평가한다.
- 모델 길이 및 난이도 가중치에 영향을 미치는 GRPO의 최적화 편향을 식별한다.
- 이해력을 해치지 않으면서 토큰 효율성을 개선하기 위한 편향 없는 최적화(Dr. GRPO)를 제안한다.
- 템플릿과 질문 세트 커버리지, 그리고 RL 다이나믹 간의 상호작용을 탐구한다.
- 수학 벤치마크에서 강력한 성과를 달성하는 미니멀리스트 RL 레시피를 시연한다.
제안 방법
- Qwen2.5, Llama-3.1, DeepSeek 변형 등 기저 모델에 대한 500개의 MATH 문제에서 모델 전반의 분석을 수행하여 응답 능력, 탐색, 자기 성찰을 평가한다.
- 응답 길이 증가 및 질문 난이도 가중치를 야기하는 GRPO 최적화 편향 분석.
- 길이 및 표준편차 정규화 항을 제거하여 편향 없는 PPO 목적함수를 회복하는 방식으로 Dr. GRPO를 제안한다.
- Dr. GRPO를 적용한 Oat 프레임워크를 사용한 MATH 기반 데이터셋과 표준 수학 벤치마크에 대한 실증 RL 실험.
- RL 다이나믹에 대한 템플릿 대 비템플릿 효과 및 질문 세트 커버리지의 조사를 수행한다.
- 수학 과제에서 향상된 RL 한계를 보이는 도메인 특화 사전 학습 실험.
실험 결과
연구 질문
- RQ1기저 모델의 사전 학습 특성이 R1-Zero 유사 학습에서 RL 결과에 편향을 주는가?
- RQ2GRPO가 응답 길이를 늘리거나 문제의 가중치를 잘못하는 길이 및 난이도 편향을 도입하는가?
- RQ3Dr. GRPO가 추론 성능을 해치지 않으면서 편향 없는 토큰 효율적인 RL 최적화를 제공할 수 있는가?
- RQ4템플릿과 질문 세트 커버리지가 RL 다이나믹과 최종 성능에 어떻게 상호 작용하는가?
- RQ5도메인 특화 사전 학습이 R1-Zero 유사 학습에서 수학 추론에 대한 RL 한계를 높이는가?
주요 결과
| 모델 | 템플릿 | AIME24 | AMC | MATH500 | Minerva | 올림피아드벤치 | 평균 |
|---|---|---|---|---|---|---|---|
| Qwen2.5-Math-1.5B | 4-shot prompting | 0.0 | 20.0 | 50.4 | 12.1 | 15.9 | 19.7 |
| Qwen2.5-Math-1.5B | R1 template | 0.0 | 9.6 | 21.2 | 6.6 | 2.2 | 7.9 |
| Qwen2.5-Math-1.5B | Qwen template | 20.0 | 32.5 | 33.0 | 12.5 | 22.8 | 24.2 |
| Qwen2.5-Math-1.5B | No template | 16.7 | 43.4 | 61.8 | 15.1 | 28.4 | 33.1 |
| Qwen2.5-Math-7B | 4-shot prompting | - | - | - | - | - | - |
| Qwen2.5-Math-7B | Qwen template | 16.7 | 38.6 | 50.6 | 9.9 | 16.6 | 26.5 |
| Qwen2.5-Math-7B | No template | 0.2 | 45.8 | 69.0 | 21.3 | 34.7 | 38.2 |
- Qwen2.5 기저 모델은 템플릿 없이도 높은 응답율을 달성할 수 있어 연결된 QA 텍스트로의 사전 학습을 시사한다.
- 테스트한 모든 기저 모델은 RL 이전에 수학 해결 능력을 보이며, 다수는 RL 이전에도 ‘아하’ 순간을 보인다.
- Dr. GRPO는 길이와 표준편차 정규화 편향을 제거하여 추론 성능을 보존하면서 토큰 효율성을 향상시킨다.
- GRPO의 길이 및 난이도 편향은 최적화를 왜곡시켜 더 긴 오답 출력과 불균형한 문제 가중치를 초래할 수 있다.
- 미니멀리스트 RL 레시피(Dr. GRPO와 Qwen2.5-Math-7B 및 수학 레벨 프롬프트 사용)는 적은 계산으로 강력한 결과를 달성하며 AIME 2024에서 최첨단이다.
- 도메인 특화 수학 사전 학습(FineMath/NuminaQA)은 수학 추론에 대한 RL 한계를 높일 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.