Skip to main content
QUICK REVIEW

[論文レビュー] IsoCompute Playbook: Optimally Scaling Sampling Compute for LLM RL

Zhoujun Cheng, Yutao Xie|arXiv (Cornell University)|Mar 12, 2026
Reinforcement Learning in Robotics被引用数 0
ひとこと要約

論文は、LLMsのオンポリシーRLにおけるサンプリング計算を最適に割り当てる規則を、並列ロールアウト数(n)、問題あたりの問題数(Bp)、更新反復回数(M)の3軸で導出し、n(問題あたりのロールアウト数)が予算にどう比例して拡張するか、問題の難易度によってどう異なるかを示す。

ABSTRACT

While scaling laws guide compute allocation for LLM pre-training, analogous prescriptions for reinforcement learning (RL) post-training of large language models (LLMs) remain poorly understood. We study the compute-optimal allocation of sampling compute for on-policy RL methods in LLMs, framing scaling as a compute-constrained optimization over three resources: parallel rollouts per problem, number of problems per batch, and number of update steps. We find that the compute-optimal number of parallel rollouts per problem increases predictably with compute budget and then saturates. This trend holds across both easy and hard problems, though driven by different mechanisms: solution sharpening on easy problems and coverage expansion on hard problems. We further show that increasing the number of parallel rollouts mitigates interference across problems, while the number of problems per batch primarily affects training stability and can be chosen within a broad range. Validated across base models and data distributions, our results recast RL scaling laws as prescriptive allocation rules and provide practical guidance for compute-efficient LLM RL post-training.

研究の動機と目的

  • LLMsのRL後処理におけるスケーリング法の必要性を動機づけ、サンプリング資源に対する計算制約付き最適化枠組みを確立する。
  • 一定の計算予算の下で、3つのサンプリング軸(n, Bp, M)が性能に与える影響を特徴づける。
  • 易しい問題セットと難しい問題セットの両方に対して、RL性能を最大化するためのn、Bp、Mの実践的な選択指針を提供する。)

提案手法

  • 3つのサンプリング資源を用いたRL後処理設定を定式化する:問題あたりの並列ロールアウト数(n)、バッチあたりの問題数(Bp)、更新反復回数(M)。
  • 総サンプリング計算を C = Bp · n · M と定義し、C0のフロンティアに対して割り当て(Bp, n, M)を探索して性能を研究する。
  • プロンプトごとに評価を行うため、オンポリシーRL(GRPO)を用い、グループ正規化されたアドバンテージと0/1の結果報酬を使用。
  • データセット難易度、エントロピー/KL正則化、バッチサイズB = Bp · nに対する平方根型学習率スケーリングを通じて訓練の安定性を確保する健全な RL レシピを確立。
  • 学習曲線上の直近の新記録点を抽出し、これらの点に対して単調なフロンティアをフィットさせることで、計算最適なフロンティアを導出する。
Figure 1 : Compute-optimal sampling for LLM RL. We study allocation of sampling compute along three axes: parallel rollouts per problem ( $n$ ), problems per batch ( $B_{\text{p}}$ ), and sequential iterations ( $M$ ), where the total compute is $C=B_{\text{p}}\cdot n\cdot M$ . We find that: (1) opt
Figure 1 : Compute-optimal sampling for LLM RL. We study allocation of sampling compute along three axes: parallel rollouts per problem ( $n$ ), problems per batch ( $B_{\text{p}}$ ), and sequential iterations ( $M$ ), where the total compute is $C=B_{\text{p}}\cdot n\cdot M$ . We find that: (1) opt

実験結果

リサーチクエスチョン

  • RQ1固定予算C0に対して、サンプリング資源の計算最適な割り当て(Bp, n, M)は何か?
  • RQ2計算予算が増加するとともに、計算最適なn(問題あたりの並列ロールアウト数)はどのようにスケールし、易しい問題と難しい問題でどう異なるか?
  • RQ3固定または制限されたバッチ設定の下で、Bp(バッチあたりの問題数)とM(更新反復)はnとどのように相互作用して安定性と性能に影響するか?
  • RQ4スケーリング傾向はベースモデルやプロンプト分布を横断して一般化するか、GRPO、PPO、CISPOなど異なるRLアルゴリズムに対して頑健か?
  • RQ5スケーリングによる利得を生む仕組みは、易しいタスクと難しいタスクで、 sharpening(鋭化)と coverage(カバレッジ)のどちらが支配的か?

主な発見

  • 計算最適なnはサンプリング計算予算Cとともに増加し、その後飽和する。log nとlog Cの間にはS字型に近い関係が見られる。
  • nの拡張は、易しい問題では解の鋭化、難しい問題ではカバレッジの拡張を通じて性能向上に寄与する。
  • 固定ハードウェア下では、Bpよりもnに対する感度が高く、安定性の範囲内で広く問題数を増やす方が効果的。
  • より大きなnは問題間の干渉を軽減し、多問題RL設定で学習効率を改善する。
  • 最適割り当てはM(逐次更新)が増えるとnの優先度が高まる一方、低M時にはBpが低いMでの安定性のために有利となる。易しい vs. 難しい問題セットでトレードオフが異なる。
  • (Bp, n, M)を同時最適化しても、Cの増加に伴うnの優位性は維持され、Bpは主に安定性の調整役、Mは残りの予算を吸収する役割を果たす。
Figure 2 : Difficulty distribution of Easy vs. Hard problems. We split problems into Easy and Hard sets according to pass@16 (average pass rate over 16 generations per problem).
Figure 2 : Difficulty distribution of Easy vs. Hard problems. We split problems into Easy and Hard sets according to pass@16 (average pass rate over 16 generations per problem).

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。