Skip to main content
QUICK REVIEW

[论文解读] STAPO: Stabilizing Reinforcement Learning for LLMs by Silencing Rare Spurious Tokens

Shiqi Liu, Zeyu He|arXiv (Cornell University)|Feb 17, 2026
Topic Modeling被引用 0
一句话总结

简要:STAPO 识别造成不稳定 RL 更新的极少数伪令牌,并使它们的梯度贡献被静默处理,从而在多项基准测试和模型规模上实现更稳定的熵及改进的推理准确性。

ABSTRACT

Reinforcement Learning (RL) has significantly improved large language model reasoning, but existing RL fine-tuning methods rely heavily on heuristic techniques such as entropy regularization and reweighting to maintain stability. In practice, they often suffer from late-stage performance collapse, leading to degraded reasoning quality and unstable training. Our analysis shows that the magnitude of token-wise policy gradients in RL is negatively correlated with token probability and local policy entropy. We find that training instability can be caused by a tiny fraction of tokens, approximately 0.01%, which we term spurious tokens. When such tokens appear in correct responses, they contribute little to the reasoning outcome but inherit the full sequence-level reward, leading to abnormally amplified gradient updates. To mitigate this instability, we design an S2T (silencing spurious tokens) mechanism to efficiently identify spurious tokens through characteristic signals with low probability, low entropy, and positive advantage, and then suppress their gradient perturbations during optimization. Incorporating this mechanism into a group-based objective, we propose Spurious-Token-Aware Policy Optimization (STAPO), which promotes stable and effective large-scale model refinement. Across six mathematical reasoning benchmarks using Qwen 1.7B, 8B, and 14B base models, STAPO consistently demonstrates superior entropy stability and achieves an average performance improvement of 7.13% ($ρ_{\mathrm{T}}$=1.0, top-p=1.0) and 3.69% ($ρ_{\mathrm{T}}$=0.7, top-p=0.9) over GRPO, 20-Entropy, and JustRL.

研究动机与目标

  • 解释在策略更新期间,LLM 的 RL 不稳定性如何在令牌级别产生。
  • 识别获得不成比例的大梯度但对推理贡献很小的伪令牌。
  • 开发 S2T(silencing spurious tokens)以抑制有害的梯度更新。
  • 将 S2T 纳入基于组的目标以形成 STAPO,从而实现稳定的大规模优化。
  • 在多种模型规模和六个数学推理基准上经验性验证 STAPO。

提出的方法

  • 分析令牌级梯度、熵和概率以推导稳定性框架。
  • 将伪令牌定义为低概率、低熵、在正确回答中具有正向优势的令牌。
  • 引入 S2T 通过二值掩码屏蔽来自伪令牌的梯度贡献。
  • 在组相对策略优化目标中应用 S2T 形成 STAPO。
  • 为熵提供自适应阈值并给出固定概率阈值以识别伪令牌。
  • 在六个基准上对三个 Qwen 基模型尺度(1.7B、8B、14B)进行评估。

实验结果

研究问题

  • RQ1哪些令牌级属性驱动了对 LLM 的 RL 微调中的不稳定性?
  • RQ2是否只有极少数伪令牌就能被可靠检测并屏蔽,以在不损害学习的情况下稳定训练?
  • RQ3STAPO 是否在不同模型规模和解码设置下提升熵稳定性与推理准确性?
  • RQ4STAPO 与基线方法在六个数学推理基准上的表现有何差异?
  • RQ5STAPO 的掩码阈值的敏感性特征为何?

主要发现

  • 伪令牌极其罕见(约 0.01%),但会触发不成比例的大梯度更新。
  • STAPO 在不同模型尺度上稳定策略熵,同时获得更高的训练回报和准确性。
  • 在 1.7B、8B、14B 的 Qwen 模型下,STAPO 在六个数学基准上实现了与训练对齐设置的最先进性能。
  • 仅屏蔽伪令牌(通过 S2T)相比 GRPO、20-Entropy 和 JustRL 一致提升 STAPO 的性能。
  • STAPO 在不同评估配置(训练对齐和 JustRL)下保持稳定性,显示对解码策略的鲁棒性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。