Skip to main content
QUICK REVIEW

[論文レビュー] Prune as You Generate: Online Rollout Pruning for Faster and Better RLVR

Haobo Xu, Sirui Chen|arXiv (Cornell University)|Mar 25, 2026
Topic Modeling被引用数 0
ひとこと要約

ARRoL はオンラインロールアウト剪定を導入し、軽量の品質ヘッドで報酬の0/1バランスを取ることで RLVR の学習信号を安定化し、Qwen-3 および LLaMA-3.2 で訓練を faster(1.6–1.7倍)〜高精度化(+2.30 〜 +2.99)を実現。テスト時の精度は最大で +8.33 の向上。

ABSTRACT

Reinforcement Learning with Verifiable Rewards (RLVR) has significantly advanced the reasoning capabilities of Large Language Models (LLMs). However, methods such as GRPO and DAPO suffer from substantial computational cost, since they rely on sampling many rollouts for each prompt. Moreover, in RLVR the relative advantage is often sparse: many samples become nearly all-correct or all-incorrect, yielding low within-group reward variance and thus weak learning signals. In this paper, we introduce arrol (Accelerating RLVR via online Rollout Pruning), an online rollout pruning method that prunes rollouts during generation while explicitly steering the surviving ones more correctness-balanced to enhance learning signals. Specifically, arrol trains a lightweight quality head on-the-fly to predict the success probability of partial rollouts and uses it to make early pruning decisions. The learned quality head can further weigh candidates to improve inference accuracy during test-time scaling. To improve efficiency, we present a system design that prunes rollouts inside the inference engine and re-batches the remaining ones for log-probability computation and policy updates. Across GRPO and DAPO on Qwen-3 and LLaMA-3.2 models (1B-8B), arrol improves average accuracy by +2.30 to +2.99 while achieving up to 1.7x training speedup, and yielding up to +8.33 additional gains in average accuracy in test-time scaling. The code is available at https://github.com/Hsu1023/ARRoL.

研究の動機と目的

  • RLVR ロールアウト生成の高い計算コスト(例: GRPO, DAPO)に対処する。
  • オンライン剪定による同一グループ内報酬のバランシングで sparse な学習信号を緩和する。
  • 学習済み品質スコアを投票ウェイトとして使用してテスト時の精度を向上させる。
  • 生成バックエンド内で剪定を実行し、フロントエンドで再バッチ処理を行うエンドツーエンドのシステム設計を提供する。
  • 複数モデル(Qwen-3、LLaMA-3.2)およびベンチマークで一貫した改善を示す。

提案手法

  • 部分ロールアウトで軽量な品質ヘッドを訓練し、最終成功確率を予測する。
  • 品質ヘッドのスコアを用いてオンラインでロールアウトを剪定し、残りのサンプルを 0/1 バランスへ誘導する(目標 rho = 0.5)。
  • オンラインビニング手法で部分ロールアウトのスコアを后方確率にキャリブレーションする。
  • 生成バックエンド(vLLM)内で剪定を統合し、フロントエンドで生存サンプルを再バッチして効率的な対数確率計算と更新を実現する。
  • テスト時には単純な多数決よりも品質ヘッドスコアで候補を重み付けする。
  • 検出長さ L_detect = 512 を設定して剪定の信頼性と時間コストのバランスを取る。

実験結果

リサーチクエスチョン

  • RQ1オンラインロールアウト剪定は RLVR のロールアウト生成コストを削減しつつ学習信号を維持・改善できるか?
  • RQ2同一グループ内報酬のバランシング(rho=0.5 指向)は勾配の質と最終精度を改善するか?
  • RQ3学習済み品質ヘッドはテスト時の有効な投票ウェイトとして最終精度を向上させるか?
  • RQ4ロールアウト生成中の剪定でウォールクロック速度を実現するエンドツーエンドのシステム設計とは?

主な発見

MethodMath500MinervamathOlympiadBenchAMC’23AIME’24AIME’25AvgSpeedup
GRPO60.8917.6518.5575.0020.0016.6734.79-
ARRoL62.3016.9120.8182.5023.3316.6737.091.61×
  • ARRoL は Qwen-3 および LLaMA-3.2 モデル間で、元の GRPO/DAPO より平均精度を約 +2.30 〜 +2.99 ポイント一貫して改善する。
  • 半分程度のロールアウトを剪定し容量を再配分することで、エンドツーエンドの訓練で最大 1.7x の速度向上を達成する。
  • 品質ヘッドは約 80% の予測精度を達成(例:Qwen-3-1.7B で 82.37%)。
  • 品質ヘッドスコアを用いたテスト時の投票は、DeepConf と多数決投票を上回り最大 +8.33 ポイントの平均精度向上をもたらす。
  • 剪定はグループ内報酬のバランスを取り、学習信号と非縮退勾配を改善する。
  • ARRoL はより難易度の高いベンチマーク(AMC’23、AIME’24)での性能を改善し、GRPO および DAPO などの RLVR アルゴリズム間の一般化も示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。