Skip to main content
QUICK REVIEW

[논문 리뷰] MC-GRPO: Median-Centered Group Relative Policy Optimization for Small-Rollout Reinforcement Learning

Youngeun Kim|arXiv (Cornell University)|2026. 01. 30.
Reinforcement Learning in Robotics인용 수 0
한 줄 요약

MC-GRPO는 GRPO 계열 방법에서 평균 중심 베이스라인을 중앙값 중심 베이스라인으로 대체하여 rollout 예산이 작을 때 학습을 안정시키고 정확도를 향상시킨다. 중앙값 참조를 형성하기 위해 추가 롤아웃 하나를 더하고 중앙값을 제거하며 업데이트 크기를 고정하고 부호 반전을 감소시킨다.

ABSTRACT

Group-relative policy optimization methods train language models by generating multiple rollouts per prompt and normalizing rewards with a shared mean reward baseline. In resource-constrained settings where the rollout budget is small, accuracy often degrades. We find that noise in the shared baseline induces advantage sign flips, where some rollouts receive an incorrect advantage sign, and the update direction is reversed. To address this, we propose Median-Centered Group Relative Policy Optimization (MC-GRPO), a simple and effective solution for small-rollout training. Our main idea is to replace the mean baseline with a median baseline: the median is far less sensitive to outlier rewards than the mean, mitigating the sign flips under small rollout size (G). We generate one additional rollout for median reference (G+1), and compute advantages by using the group median. With an odd-sized group, exactly one completion is the median and receives zero advantage, we exclude this pivot rollout from backpropagation so the number of gradient-contributing samples per prompt remains G, preserving the core update cost of standard G-rollout training. Across various GRPO-family methods and a wide range of models and scales, this median-centered training consistently improves stability and final accuracy in the low-rollout regime, reducing the gap between G=2 and G=8 to within 1%. Code is available at https://github.com/lotusroot-kim/MC-GRPO

연구 동기 및 목표

  • GRPO 스타일의 베이스라인이 작은 rollout 예산에서 신뢰성을 상실하는 이유를 식별한다.
  • 이상치 노이즈를 완화하기 위해 중앙값 중심의 그룹 상대 정책 최적화(MC-GRPO)를 제안한다.
  • 저롤아웃 구간에서 GRPO 변형과 모델에 걸쳐 MC-GRPO가 안정성과 최종 정확도를 향상시키는지 보여준다.
  • 2-rollout과 8-rollout 간 성능 차이를 줄이는 데 MC-GRPO가 기여하는 정도를 시연한다.
  • 이상치에 대한 강건성과 분포 외 수학 벤치마크에 대한 일반화에 대한 강건성을 평가한다.

제안 방법

  • 프롬프트당 G+1 롤아웃을 샘플링하여 홀수 크기의 그룹을 형성한다.
  • 그룹 베이스라인을 G+1 롤아웃의 보상 중앙값(b(q))으로 계산한다.
  • 작은 ε를 두고 (r_i - b(q))를 MAD(r)으로 나눈 값을 이점으로 계산한다.
  • 중앙값(제로-혜택 완성과 관련된 백프로파게이션)을 백프로파게이션에서 제외하여 G의 기울기 기여 샘플을 유지한다.
  • 기존 GRPO 목적식에서 표준 GRPO 그룹 정규화 이점을 중앙값 중심 이점으로 대체한다.
  • GRPO-계열 방법의 업데이트 크기와 파이프라인을 유지하여 표준 대체로 작동하도록 한다.
Figure 1 : Accuracy (%) versus the number of rollouts for Qwen3-1.7B trained on GSM8K. We compare the original GRPO, DAPO, and DR-GRPO methods ( ; baselines) with their Median-Centered (MC) variants ( ; ours). MC training improves robustness and yields larger gains under small rollout budgets (2 $\s
Figure 1 : Accuracy (%) versus the number of rollouts for Qwen3-1.7B trained on GSM8K. We compare the original GRPO, DAPO, and DR-GRPO methods ( ; baselines) with their Median-Centered (MC) variants ( ; ours). MC training improves robustness and yields larger gains under small rollout budgets (2 $\s

실험 결과

연구 질문

  • RQ1중앙값 중심화가 작은 rollout GRPO 스타일 학습에서 이점 부호 반전을 감소시키는가?
  • RQ2작은 G에서도 GRPO-계열 방법과 모델 스케일 전반에 걸쳐 MC-GRPO가 안정성과 최종 정확도를 일관되게 개선하는가?
  • RQ3성능 향상이 단순히 추가 롤아웃을 더하는 것이 아니라 중앙값 베이스라인의 강건성 때문인가?
  • RQ4작은 롤아웃으로 학습될 때 MC-GRPO가 분포 외 일반화 성능을 향상시키는가?
  • RQ5복합(정밀한) 보상(r_acc + r_fmt)에서 MC-GRPO의 성능은 어떠하며 추가 샘플링 제어에 대해 시험될 때도 강건한가?

주요 결과

  • 중앙값 중심 베이스라인은 작은 rollout 예산(G가 2 또는 4인 경우)에서 부호 반전 비율을 크게 감소시킨다.
  • 다수의 모델/데이터셋에 걸쳐 GRPO 대비 MC-GRPO가 정확도 향상을 제공하며, 보고된 설정에서 G=2일 때 최대 +4.62%, G=4일 때 +2.35%~+2.67%의 향상을 달성한다.
  • GRPO-계열 변형(GRPO, DAPO, DR-GRPO) 전반에서 저예산 구간에서의 안정성과 최종 정확도가 향상되며 더 높은 예산(G=8)에서도 경쟁력을 유지한다.
  • MC-GRPO는 보고된 사례에서 2-rollout과 8-rollout 간의 격차를 1% 이내로 좁힌다.
  • 이상치 분포 외의 제로샷 정확도는 소규모 롤아웃에서 GRPO에 비해 MC-GRPO 하에서 향상된다(AIME-24, AMC-23).
  • MC-GRPO는 복합 이산 보상(r_acc + r_fmt)에서도 효과를 유지하며 추가 샘플링 제어에 대해 시험되었을 때도 중앙값 베이스라인 메커니즘의 강건성을 나타낸다.
Figure 2 : Sign flips are frequent under small rollout budgets. (a) With few rollouts, the sample-mean baseline can shift substantially depending on which rollouts are included, causing an advantage sign flip for the same trajectory ( e.g. , the $0.5$ -reward sample flips sign when the rollout set c
Figure 2 : Sign flips are frequent under small rollout budgets. (a) With few rollouts, the sample-mean baseline can shift substantially depending on which rollouts are included, causing an advantage sign flip for the same trajectory ( e.g. , the $0.5$ -reward sample flips sign when the rollout set c

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.