[논문 리뷰] Self-Hinting Language Models Enhance Reinforcement Learning
논문은 GRPO 훈련을 자기 생성 힌트로 보강하는 특권 힌트 프레임워크인 SAGE를 도입하여 희박한 종말 보상 하에서 보상 붕괴를 방지하고, 여러 LLM 및 수학 벤치마크에서 샘플 효율성과 정확도를 향상시킵니다.
Group Relative Policy Optimization (GRPO) has recently emerged as a practical recipe for aligning large language models with verifiable objectives. However, under sparse terminal rewards, GRPO often stalls because rollouts within a group frequently receive identical rewards, causing relative advantages to collapse and updates to vanish. We propose self-hint aligned GRPO with privileged supervision (SAGE), an on-policy reinforcement learning framework that injects privileged hints during training to reshape the rollout distribution under the same terminal verifier reward. For each prompt $x$, the model samples a compact hint $h$ (e.g., a plan or decomposition) and then generates a solution $τ$ conditioned on $(x,h)$. Crucially, the task reward $R(x,τ)$ is unchanged; hints only increase within-group outcome diversity under finite sampling, preventing GRPO advantages from collapsing under sparse rewards. At test time, we set $h=\varnothing$ and deploy the no-hint policy without any privileged information. Moreover, sampling diverse self-hints serves as an adaptive curriculum that tracks the learner's bottlenecks more effectively than fixed hints from an initial policy or a stronger external model. Experiments over 6 benchmarks with 3 LLMs show that SAGE consistently outperforms GRPO, on average +2.0 on Llama-3.2-3B-Instruct, +1.2 on Qwen2.5-7B-Instruct and +1.3 on Qwen3-4B-Instruct. The code is available at https://github.com/BaohaoLiao/SAGE.
연구 동기 및 목표
- 희박한 보상으로 인해 많은 프롬프트가 동일한 보상을 yield하는 GRPO(Group Relative Policy Optimization)에서의 정지 문제를 해결합니다.
- 작업 보상을 변경하지 않으면서 롤아웃 분포를 재구성하는 특권 힌트 메커니즘을 도입합니다.
- 학습자에게 힌트를 보정하기 위한 정책 의존적 힌트 강도 스케줄러와 온라인 자기 힌트를 개발합니다.
- 학습 중에는 정책 기반 학습(on-policy)을 유지하고 테스트 시에는 힌트가 없는 정책을 사용하되 학습 중에는 힌트를 활용합니다.
- 다양한 LLM 및 수학 벤치마크에 대해 견고성과 정확성 향상을 입증합니다.
제안 방법
- SAGE를 정의합니다: x에 조건화된 참조 해의 손실 압축인 힌트 h로 훈련하되 보상 R(x,τ)는 불변으로 유지합니다.
- 그룹 내 보상 붕괴가 발생할 때만 힌트를 활성화하고, 정책 의존적 스케줄러를 사용해 자동 커리큘럼을 만듭니다.
- 현재 정책에서 파생된 힌트 생성기 qφ(h|x,τ⋆,ℓ)에서 온라인으로 힌트를 샘플링하고 학습 중에 이 생성기를 새로 고칩니다(온라인 자기 힌트).
- x,h에 롤아웃을 조건화하고 학습을 위해 πθ(.|x,h)를 사용하는 온정책 업데이트를 유지하며, 테스트 시 h=∅를 사용합니다.
- 정규화된 이점과 KL 정규화 항을 통해 참조 정책에 대해 정책 그래디언트 손실을 최적화하고 온정책 힌트 조건화된 롤아웃에서 평가합니다.
실험 결과
연구 질문
- RQ1특권적 자기 힌트가 작업 목표를 바꾸지 않으면서 희박한 보상 하에서 GRPO의 stagnation을 방지할 수 있는가?
- RQ2훈련 중 비변형적이고 정보가 풍부한 롤아웃을 극대화하기 위해 힌트 강도는 어떻게 스케줄링되어야 하는가?
- RQ3온라인 자기 힌트가 어려운 프롬프트에서 학습을 촉진하는 데 고정된 오프라인 힌트와 외부 교사 힌트보다 우수한가?
- RQ4다양한 LLM과 수학 벤치마크에 SAGE를 적용했을 때 샘플 효율성과 정확도에서 어떤 실증적 이득이 있는가?
주요 결과
- SAGE는 여섯 개 벤치마크와 세 개의 LLM에서 일관되게 GRPO를 능가하며, 예를 들어 Llama-3.2, Qwen2.5, Qwen3에서 평균 이득이 각각 +6.1, +4.5, +4.2이다.
- SAGE는 학습 신호가 없는 프롬프트의 비율을 감소시켜 GRPO에 비해 프롬프트 활용을 크게 개선한다(예: Llama-3.2에서 40.2%에서 30.0%로 감소).
- 온라인 자기 힌트가 힌트 변형 중 가장 강력한 성능을 보이며 고정된 오프라인 힌트 및 외부 교사 힌트보다 우수하다.
- SAGE는 분포 내 및 분포 외 작업에서 더 높은 평균 정확도를 달성하고 수학 벤치마크(AIME, AMC, MATH-500 등)에서 강건한 일반화를 보여준다.
- SAGE-light는 GRPO에 비해 성능 향상을 유지하면서도 상당한 속도 향상을 제공하는 더 효율적인 변형이다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.