[論文レビュー] Self-Hinting Language Models Enhance Reinforcement Learning
論文は、報酬崩壊を回避するために自己生成ヒントを用いてGRPO学習を強化する特権付与ヒント付 FrameworkであるSAGEを紹介し、複数のLLMと数学ベンチマークでサンプル効率と精度を向上させる。
Group Relative Policy Optimization (GRPO) has recently emerged as a practical recipe for aligning large language models with verifiable objectives. However, under sparse terminal rewards, GRPO often stalls because rollouts within a group frequently receive identical rewards, causing relative advantages to collapse and updates to vanish. We propose self-hint aligned GRPO with privileged supervision (SAGE), an on-policy reinforcement learning framework that injects privileged hints during training to reshape the rollout distribution under the same terminal verifier reward. For each prompt $x$, the model samples a compact hint $h$ (e.g., a plan or decomposition) and then generates a solution $τ$ conditioned on $(x,h)$. Crucially, the task reward $R(x,τ)$ is unchanged; hints only increase within-group outcome diversity under finite sampling, preventing GRPO advantages from collapsing under sparse rewards. At test time, we set $h=\varnothing$ and deploy the no-hint policy without any privileged information. Moreover, sampling diverse self-hints serves as an adaptive curriculum that tracks the learner's bottlenecks more effectively than fixed hints from an initial policy or a stronger external model. Experiments over 6 benchmarks with 3 LLMs show that SAGE consistently outperforms GRPO, on average +2.0 on Llama-3.2-3B-Instruct, +1.2 on Qwen2.5-7B-Instruct and +1.3 on Qwen3-4B-Instruct. The code is available at https://github.com/BaohaoLiao/SAGE.
研究の動機と目的
- 多くのプロンプトが同一の報酬を生成する場合に発生するGRPOの sparse-reward による停止を解消する。
- タスク報酬を変更せずに rollout分布を再構成する特権付与ヒントメカニズムを導入する。
- ヒントの learner への適応をカ calibrate する policy-dependent ヒント強度スケジューラとオンライン自己ヒントを開発する。
- 学習中はオンポリシー訓練を維持し、テスト時にはヒントなしのポリシーでデプロイしつつ学習時にはヒントの恩恵を受ける。
- 多様なLLMと数学ベンチマークに対して堅牢性と精度の向上を実証する。
提案手法
- SAGEを定義する:xを条件にして参照解のロスリ圧縮であるヒントhとともに訓練し、報酬R(x,τ)は変えない。
- 同一グループ内の報酬崩壊が発生する場合にのみヒントを有効化し、自動カリキュラムを作成するポリシー依存スケジューラを用いる。
- 現在のポリシーから導出されたヒント生成器qφ(h|x,τ⋆,ℓ)からオンラインでヒントをサンプリングし、訓練中にこの生成器を更新する(オンライン自己ヒント)。
- (x,h)で rollout を条件付けして学習することでオンポリシー更新を維持し、推論時にはh=∅を用いる。
- 標準化されたアドバンテージと参照ポリシーへのKL正則化を用いた policy gradient 損失を最適化し、オンポリシーヒント条件付き rollout で評価する。
実験結果
リサーチクエスチョン
- RQ1特権的自己ヒントはタスク目的を変えずにGRPOの稼働停止を防ぐことができるか。
- RQ2訓練中に非劜性で情報量の多い rollout を最大化するためにヒント強度をどうスケジュールすべきか。
- RQ3オンライン自己ヒントは固定オフラインヒントや外部教師ヒントより学習を促進するか。
- RQ4SAGEをさまざまなLLMと数学ベンチマークに適用したとき、サンプル効率と精度にどの程度の実証的利得があるか。
主な発見
- SAGEは6つのベンチマークと3つのLLM全てでGRPOを一貫して上回り、例としてLlama-3.2、Qwen2.5、Qwen3で平均利益が+6.1、+4.5、+4.2となる。
- SAGEは訓練信号のないプロンプトの割合を減少させ、GRPOと比較してプロンプトの活用を大幅に改善する(例:Llama-3.2では40.2%から30.0%へ減少)。
- オンライン自己ヒントはヒントのバリアントの中で最も強い性能を示し、固定オフラインヒントや外部教師ヒントを上回る。
- SAGEは分布内・分布外タスクでより高い平均精度を達成し、AIME、AMC、MATH-500などの数学ベンチマークで堅牢な一般化を示す。
- SAGE-light はGRPOに対して性能向上を維持しつつ著しく高速化されたより効率的なバリアントを提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。