[논문 리뷰] Adaptive Rollout Allocation for Online Reinforcement Learning with Verifiable Rewards
VIP는 분산 정보를 활용한 롤아웃 할당을 도입하여 각 프롬프트의 성공 확률을 가우시안 프로세스로 예측하고, 계산 예산 하에서 롤아웃을 할당하기 위한 볼록 최적화를 해결하여 검증 가능한 보상이 있는 그룹 기반 강화학습에서 샘플링 효율을 향상시킵니다.
Sampling efficiency is a key bottleneck in reinforcement learning with verifiable rewards. Existing group-based policy optimization methods, such as GRPO, allocate a fixed number of rollouts for all training prompts. This uniform allocation implicitly treats all prompts as equally informative, and could lead to inefficient computational budget usage and impede training progress. We introduce VIP, a Variance-Informed Predictive allocation strategy that allocates a given rollout budget to the prompts in the incumbent batch to minimize the expected gradient variance of the policy update. At each iteration, VIP uses a lightweight Gaussian process model to predict per-prompt success probabilities based on recent rollouts. These probability predictions are translated into variance estimates, which are then fed into a convex optimization problem to determine the optimal rollout allocations under a hard compute budget constraint. Empirical results show that VIP consistently improves sampling efficiency and achieves higher performance than uniform or heuristic allocation strategies in multiple benchmarks.
연구 동기 및 목표
- 검증 가능한 보상으로 그룹 기반 강화학습에서 샘플링 효율을 개선하기 위해 적응적 롤아웃 할당의 필요성에 대한 동기를 제시한다.
- 각 프롬프트의 성공 확률을 예측하고 기울기 분산을 최소화하도록 롤아웃을 할당하는 principled한 방법(VIP)을 개발한다.
- 기울기 분산과 프롬프트 성공 확률의 연결에 대한 이론적 분석을 제공하고, 추론 및 도구 보강 과제에서 실증적 이득을 보여준다.
제안 방법
- Dr. GRPO 및 RLOO의 기울기 분산을 분석하여 프롬프트별 분산이 성공 확률 p와 어떻게 관련되는지 파악한다.
- 프롬프트 임베딩 위상에서 p를 예측하기 위해 가우시안 프로세스(GP)를 도입하고 관찰된 보상으로 후방분포를 업데이트한다.
- 총 롤아웃 예산하에서 예측된 프롬프트별 분산의 합을 최소화하는 볼록 최적화 문제를 정의하되, 연속 이완과 반올림 휴리스틱을 사용한다.
- 연속 할당에 대한 해를 닫힘 해에 가까운 형태로 도출(Dr. GRPO 및 RLOO 변형)하고, 실현 가능한 정수 할당으로 이끌기 위한 그리디 반올림 절차를 제시한다.
- 수학적 추론 및 도구 보강 추론 과제에서 VIP를 실증적으로 검증하고, 균등 또는 휴리스틱 할당과의 비교를 수행한다.

실험 결과
연구 질문
- RQ1GRPO/RLOO 설정에서 온-policy 롤아웃의 기울기 분산이 프롬프트별 성공 확률에 어떻게 의존하는가?
- RQ2GP 기반 프롬프트별 성공 확률 예측기가 고정된 계산 예산 하에서 기울기 분산을 최소화하도록 롤아웃 할당을 가이드할 수 있는가?
- RQ3적응적 할당이 추론 벤치마크 및 도구 보강 과제에서 학습 효율 및 최종 성능을 향상시키는가?
주요 결과
- VIP는 여러 벤치마크에서 균등하거나 휴리스틱한 할당보다 샘플링 효율과 성능을 일관되게 향상시킨다.
- AIME 스타일 추론 과제에서 VIP-향상 방식은 모델과 예산 전반에 걸쳐 Pass@32, Mean@32, Maj@32 지표에서 주목할 만한 개선을 보인다.
- 연속 할당 공식은 예산에 맞춘 롤아웃 분포를 효율적으로 제공하며 반올림은 실현 가능한 정수 할당을 생성한다.
- VIP의 이득은 소형/백본 모델에서 더 두드러지며, 기본 모델이 롤아웃 예산을 덜 활용할 때 더 큰 이점을 시사한다.
- 도구 보강 추론 과제에서도 적응적 할당의 이점이 확인되어 검색 보조 생성에서의 이점이 확장된다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.