Skip to main content
QUICK REVIEW

[논문 리뷰] STAPO: Stabilizing Reinforcement Learning for LLMs by Silencing Rare Spurious Tokens

Shiqi Liu, Zeyu He|arXiv (Cornell University)|2026. 02. 17.
Topic Modeling인용 수 0
한 줄 요약

STAPO는 LLM 미세조정에서 불안정한 RL 업데이트를 유발하는 아주 소수의 spurious tokens를 식별하고 이들의 그래디언트 기여를 차단하여 엔트로피를 더 안정시키고 여러 벤치마크 및 모델 규모에 걸쳐 추론 정확도를 향상시킨다.

ABSTRACT

Reinforcement Learning (RL) has significantly improved large language model reasoning, but existing RL fine-tuning methods rely heavily on heuristic techniques such as entropy regularization and reweighting to maintain stability. In practice, they often suffer from late-stage performance collapse, leading to degraded reasoning quality and unstable training. Our analysis shows that the magnitude of token-wise policy gradients in RL is negatively correlated with token probability and local policy entropy. We find that training instability can be caused by a tiny fraction of tokens, approximately 0.01%, which we term spurious tokens. When such tokens appear in correct responses, they contribute little to the reasoning outcome but inherit the full sequence-level reward, leading to abnormally amplified gradient updates. To mitigate this instability, we design an S2T (silencing spurious tokens) mechanism to efficiently identify spurious tokens through characteristic signals with low probability, low entropy, and positive advantage, and then suppress their gradient perturbations during optimization. Incorporating this mechanism into a group-based objective, we propose Spurious-Token-Aware Policy Optimization (STAPO), which promotes stable and effective large-scale model refinement. Across six mathematical reasoning benchmarks using Qwen 1.7B, 8B, and 14B base models, STAPO consistently demonstrates superior entropy stability and achieves an average performance improvement of 7.13% ($ρ_{\mathrm{T}}$=1.0, top-p=1.0) and 3.69% ($ρ_{\mathrm{T}}$=0.7, top-p=0.9) over GRPO, 20-Entropy, and JustRL.

연구 동기 및 목표

  • 정책 업데이트 중 토큰 수준에서 왜 RL 불안정성이 LLM에서 발생하는지 설명한다.
  • 불균형적으로 큰 기울기를 받지만 추론에 거의 기여하지 않는 spurious tokens를 식별한다.
  • 해로운 그래디언트 업데이트를 억제하기 위한 S2T (silencing spurious tokens)를 개발한다.
  • 그룹 기반 목표에 S2T를 통합하여 안정적인 대규모 정교화를 위한 STAPO를 형성한다.
  • 여러 모델 규모와 여섯 개의 수학 추론 벤치마크에 걸쳐 STAPO를 실증적으로 검증한다.

제안 방법

  • 토큰 수준의 기울기, 엔트로피, 확률을 분석하여 안정성 프레임워크를 도출한다.
  • spurious tokens를 정답 응답에서 양의 이점을 가지는 낮은 확률, 낮은 엔트로피 토큰으로 정의한다.
  • 이진 마스크를 사용하여 spurious tokens의 그래디언트 기여를 마스킹하는 S2T를 도입한다.
  • 그룹 상대 정책 최적화 목표에 S2T를 적용하여 STAPO를 형성한다.
  • 엔트로피에 대한 적응 임계치와 spurious tokens를 식별하기 위한 고정 확률 임계치를 제공한다.
  • STAPO를 여섯 벤치마크에서 세 가지 Qwen 기본 모델 규모(1.7B, 8B, 14B)에 대해 평가한다.

실험 결과

연구 질문

  • RQ1LLM의 RL 미세조정에서 토큰 수준의 어떤 특성이 불안정성을 유발하는가?
  • RQ2학습을 해치지 않으면서 훈련을 안정시키기 위해 아주 작은 비율의 spurious tokens를 신뢰성 있게 탐지하고 마스킹할 수 있는가?
  • RQ3STAPO가 모델 규모와 디코딩 설정에 걸쳐 엔트로피 안정성과 추론 정확도를 향상시키는가?
  • RQ4여섯 개의 수학 추론 벤치마크에서 STAPO와 기존 방법들이 어떻게 비교되는가?
  • RQ5STAPO의 마스킹 임계치의 민감도 특성은 무엇인가?

주요 결과

  • Spurious tokens는 매우 희귀하지만(약 0.01%) 불균형적으로 큰 그래디언트 업데이트를 유발한다.
  • STAPO는 모델 규모에 걸쳐 정책 엔트로피를 안정시키면서 더 높은 훈련 보상과 정확도를 산출한다.
  • STAPO는 1.7B, 8B, 14B Qwen 모델에서 training-aligned 설정 하에 여섯 개의 수학 벤치마크에서 최첨단 성능을 달성한다.
  • spurious tokens만 마스킹하는 것(S2T)을 통해 GRPO, 20-Entropy, JustRL에 비해 STAPO 성능이 일관되게 향상된다.
  • STAPO는 다른 평가 구성(training-aligned 및 JustRL)에서 안정성을 유지하며 디코딩 전략에 대한 강건성을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.