[論文レビュー] STAPO: Stabilizing Reinforcement Learning for LLMs by Silencing Rare Spurious Tokens
STAPO は、LLM のファインチューニング時に不安定なRL更新を引き起こす微小な偽のトークンの集合を特定し、それらの勾配寄与を抑制することで、エントロピーの安定性と推論精度を改善し、複数のベンチマークとモデルスケールで安定性を向上させる。
Reinforcement Learning (RL) has significantly improved large language model reasoning, but existing RL fine-tuning methods rely heavily on heuristic techniques such as entropy regularization and reweighting to maintain stability. In practice, they often suffer from late-stage performance collapse, leading to degraded reasoning quality and unstable training. Our analysis shows that the magnitude of token-wise policy gradients in RL is negatively correlated with token probability and local policy entropy. We find that training instability can be caused by a tiny fraction of tokens, approximately 0.01%, which we term spurious tokens. When such tokens appear in correct responses, they contribute little to the reasoning outcome but inherit the full sequence-level reward, leading to abnormally amplified gradient updates. To mitigate this instability, we design an S2T (silencing spurious tokens) mechanism to efficiently identify spurious tokens through characteristic signals with low probability, low entropy, and positive advantage, and then suppress their gradient perturbations during optimization. Incorporating this mechanism into a group-based objective, we propose Spurious-Token-Aware Policy Optimization (STAPO), which promotes stable and effective large-scale model refinement. Across six mathematical reasoning benchmarks using Qwen 1.7B, 8B, and 14B base models, STAPO consistently demonstrates superior entropy stability and achieves an average performance improvement of 7.13% ($ρ_{\mathrm{T}}$=1.0, top-p=1.0) and 3.69% ($ρ_{\mathrm{T}}$=0.7, top-p=0.9) over GRPO, 20-Entropy, and JustRL.
研究の動機と目的
- ポリシー更新時のトークンレベルでなぜ RL の不安定性が生じるかを説明する。
- 過度に大きな勾配を受けつつ推論にはほとんど寄与しない偽のトークンを特定する。
- 有害な勾配更新を抑制するための S2T(silencing spurious tokens)を開発する。
- グループベースの目的に S2T を組み込み、安定した大規模改良のための STAPO を形成する。
- 複数のモデルサイズと六つの数学推論ベンチマークを横断して STAPO を実証的に検証する。
提案手法
- トークンレベルの勾配、エントロピー、確率を分析して安定性のフレームワークを導出する。
- 偽のトークンを低確率・低エントロピーかつ正答に有利な場合として定義する。
- S2T を導入して偽のトークンの勾配寄与を二値マスクでマスクする。
- S2T をグループ相対ポリシー最適化目的に適用して STAPO を形成する。
- エントロピーの適応閾値と偽のトークンを特定するための固定確率閾値を提供する。
- STAPO を六つのベンチマークで、三つの Qwen ベースモデルスケール(1.7B, 8B, 14B)で評価する。
実験結果
リサーチクエスチョン
- RQ1LLM の RL 微調整で不安定性を生じさせるトークンレベルの性質は何か。
- RQ2非常に小さな偽のトークンの割合を検出してマスクすることで、学習を損なうことなく訓練を安定化できるか。
- RQ3STAPO はモデルサイズとデコード設定を横断してエントロピー安定性と推論精度を改善するか。
- RQ4STAPO とベースライン手法を六つの数学的推論ベンチマークで比較した場合の結果はどうか。
- RQ5STAPO のマスキング閾値の感度特性はどうか。
主な発見
- 偽のトークンは非常にまれ(約 0.01%)だが、過度に大きな勾配更新を引き起こす。
- STAPO はモデルスケールを超えてポリシーエントロピーを安定化させつつ、訓練報酬と精度を高める。
- STAPO は 1.7B、8B、14B の Qwen モデルで訓練一致設定の六つの数理ベンチマークで最先端の性能を達成する。
- 偽のトークンのみをマスクする(S2T)ことは、GRPO、20-Entropy、JustRL と比較して STAPO の性能を一貫して改善する。
- STAPO は異なる評価設定(訓練一致と JustRL)でも安定性を維持し、デコード戦略に対する堅牢性を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。