Skip to main content
QUICK REVIEW

[论文解读] Self-Hinting Language Models Enhance Reinforcement Learning

Baohao Liao, Hanze Dong|arXiv (Cornell University)|Feb 3, 2026
Topic Modeling被引用 0
一句话总结

论文提出 SAGE,一种特权提示框架,通过自生成提示来增强 GRPO 的训练,在稀疏终端奖励下防止奖励崩塌,从而在多种大语言模型和数学基准上提升样本效率和准确性。

ABSTRACT

Group Relative Policy Optimization (GRPO) has recently emerged as a practical recipe for aligning large language models with verifiable objectives. However, under sparse terminal rewards, GRPO often stalls because rollouts within a group frequently receive identical rewards, causing relative advantages to collapse and updates to vanish. We propose self-hint aligned GRPO with privileged supervision (SAGE), an on-policy reinforcement learning framework that injects privileged hints during training to reshape the rollout distribution under the same terminal verifier reward. For each prompt $x$, the model samples a compact hint $h$ (e.g., a plan or decomposition) and then generates a solution $τ$ conditioned on $(x,h)$. Crucially, the task reward $R(x,τ)$ is unchanged; hints only increase within-group outcome diversity under finite sampling, preventing GRPO advantages from collapsing under sparse rewards. At test time, we set $h=\varnothing$ and deploy the no-hint policy without any privileged information. Moreover, sampling diverse self-hints serves as an adaptive curriculum that tracks the learner's bottlenecks more effectively than fixed hints from an initial policy or a stronger external model. Experiments over 6 benchmarks with 3 LLMs show that SAGE consistently outperforms GRPO, on average +2.0 on Llama-3.2-3B-Instruct, +1.2 on Qwen2.5-7B-Instruct and +1.3 on Qwen3-4B-Instruct. The code is available at https://github.com/BaohaoLiao/SAGE.

研究动机与目标

  • 在 Group Relative Policy Optimization (GRPO) 中解决当许多提示获得相同奖励时的稀疏奖励停滞问题。
  • 引入特权提示机制,在不改变任务奖励的前提下重塑 rollout 分布。
  • 开发一个与策略相关的提示强度调度器和在线自提示,以将提示校准为学习者。
  • 在保持 on-policy 训练的同时,在测试时部署无提示策略,并在学习期间受益于提示。
  • 证明在多样化的 LLMs 和数学基准上具有鲁棒性和准确性提升。

提出的方法

  • 定义 SAGE:训练时使用提示 h,其是参考解的有损压缩,条件为 x,同时保持奖励 R(x,τ) 不变。
  • 仅在组内奖励崩溃时激活提示,使用一个与策略相关的调度器来创建自动课程。
  • 在线从提示生成器 qφ(h|x,τ⋆,ℓ) 获取提示,该生成器基于当前策略并在训练过程中刷新(在线自提示)。
  • 通过以 (x,h) 作为条件并使用 πθ(.|x,h) 进行学习来保持 on-policy 更新,测试时使用 h=∅ 的策略部署。
  • 以标准化优势和对参考策略的 KL 正则化来优化策略梯度损失,评估对象为带有提示条件的 on-policy 回合。

实验结果

研究问题

  • RQ1特权自提示是否可以在不改变任务目标的前提下防止 GRPO 在稀疏奖励下的停滞?
  • RQ2应如何调度提示强度以在训练过程中最大化非退化、信息丰富的回合?
  • RQ3在线自提示在促进硬提示学习方面是否优于固定离线提示和外部教师提示?
  • RQ4将 SAGE 应用于不同的 LLM 和数学基准时,在样本效率和准确性方面有哪些经验提升?

主要发现

  • SAGE 在六个基准和三种 LLM 上始终优于 GRPO,例如在 Llama-3.2、Qwen2.5 和 Qwen3 上的平均增益分别为 +6.1、+4.5 和 +4.2。
  • SAGE 减少没有训练信号的提示比例,相比 GRPO 显著提高提示利用率(如 Llama-3.2 从 40.2% 降至 30.0%)。
  • 在线自提示在提示变体中产生最佳性能,优于固定离线提示和外部教师提示。
  • SAGE 在分布内和分布外任务上均取得更高的平均准确性,并在数学基准(AIME、AMC、MATH-500 等)上表现出强健的泛化能力。
  • SAGE-light 提供了一个更高效的变体,速度显著提升,同时在保持对 GRPO 的性能提升方面表现良好。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。