QUICK REVIEW

[논문 리뷰] Self-Hinting Language Models Enhance Reinforcement Learning

Baohao Liao, Hanze Dong|arXiv (Cornell University)|2026. 02. 03.

Topic Modeling인용 수 0

한 줄 요약

논문은 GRPO 훈련을 자기 생성 힌트로 보강하는 특권 힌트 프레임워크인 SAGE를 도입하여 희박한 종말 보상 하에서 보상 붕괴를 방지하고, 여러 LLM 및 수학 벤치마크에서 샘플 효율성과 정확도를 향상시킵니다.

ABSTRACT

Group Relative Policy Optimization (GRPO) has recently emerged as a practical recipe for aligning large language models with verifiable objectives. However, under sparse terminal rewards, GRPO often stalls because rollouts within a group frequently receive identical rewards, causing relative advantages to collapse and updates to vanish. We propose self-hint aligned GRPO with privileged supervision (SAGE), an on-policy reinforcement learning framework that injects privileged hints during training to reshape the rollout distribution under the same terminal verifier reward. For each prompt $x$, the model samples a compact hint $h$ (e.g., a plan or decomposition) and then generates a solution $τ$ conditioned on $(x,h)$. Crucially, the task reward $R(x,τ)$ is unchanged; hints only increase within-group outcome diversity under finite sampling, preventing GRPO advantages from collapsing under sparse rewards. At test time, we set $h=\varnothing$ and deploy the no-hint policy without any privileged information. Moreover, sampling diverse self-hints serves as an adaptive curriculum that tracks the learner's bottlenecks more effectively than fixed hints from an initial policy or a stronger external model. Experiments over 6 benchmarks with 3 LLMs show that SAGE consistently outperforms GRPO, on average +2.0 on Llama-3.2-3B-Instruct, +1.2 on Qwen2.5-7B-Instruct and +1.3 on Qwen3-4B-Instruct. The code is available at https://github.com/BaohaoLiao/SAGE.

연구 동기 및 목표

희박한 보상으로 인해 많은 프롬프트가 동일한 보상을 yield하는 GRPO(Group Relative Policy Optimization)에서의 정지 문제를 해결합니다.
작업 보상을 변경하지 않으면서 롤아웃 분포를 재구성하는 특권 힌트 메커니즘을 도입합니다.
학습자에게 힌트를 보정하기 위한 정책 의존적 힌트 강도 스케줄러와 온라인 자기 힌트를 개발합니다.
학습 중에는 정책 기반 학습(on-policy)을 유지하고 테스트 시에는 힌트가 없는 정책을 사용하되 학습 중에는 힌트를 활용합니다.
다양한 LLM 및 수학 벤치마크에 대해 견고성과 정확성 향상을 입증합니다.

제안 방법

SAGE를 정의합니다: x에 조건화된 참조 해의 손실 압축인 힌트 h로 훈련하되 보상 R(x,τ)는 불변으로 유지합니다.
그룹 내 보상 붕괴가 발생할 때만 힌트를 활성화하고, 정책 의존적 스케줄러를 사용해 자동 커리큘럼을 만듭니다.
현재 정책에서 파생된 힌트 생성기 qφ(h|x,τ⋆,ℓ)에서 온라인으로 힌트를 샘플링하고 학습 중에 이 생성기를 새로 고칩니다(온라인 자기 힌트).
x,h에 롤아웃을 조건화하고 학습을 위해 πθ(.|x,h)를 사용하는 온정책 업데이트를 유지하며, 테스트 시 h=∅를 사용합니다.
정규화된 이점과 KL 정규화 항을 통해 참조 정책에 대해 정책 그래디언트 손실을 최적화하고 온정책 힌트 조건화된 롤아웃에서 평가합니다.

실험 결과

연구 질문

RQ1특권적 자기 힌트가 작업 목표를 바꾸지 않으면서 희박한 보상 하에서 GRPO의 stagnation을 방지할 수 있는가?
RQ2훈련 중 비변형적이고 정보가 풍부한 롤아웃을 극대화하기 위해 힌트 강도는 어떻게 스케줄링되어야 하는가?
RQ3온라인 자기 힌트가 어려운 프롬프트에서 학습을 촉진하는 데 고정된 오프라인 힌트와 외부 교사 힌트보다 우수한가?
RQ4다양한 LLM과 수학 벤치마크에 SAGE를 적용했을 때 샘플 효율성과 정확도에서 어떤 실증적 이득이 있는가?

주요 결과

SAGE는 여섯 개 벤치마크와 세 개의 LLM에서 일관되게 GRPO를 능가하며, 예를 들어 Llama-3.2, Qwen2.5, Qwen3에서 평균 이득이 각각 +6.1, +4.5, +4.2이다.
SAGE는 학습 신호가 없는 프롬프트의 비율을 감소시켜 GRPO에 비해 프롬프트 활용을 크게 개선한다(예: Llama-3.2에서 40.2%에서 30.0%로 감소).
온라인 자기 힌트가 힌트 변형 중 가장 강력한 성능을 보이며 고정된 오프라인 힌트 및 외부 교사 힌트보다 우수하다.
SAGE는 분포 내 및 분포 외 작업에서 더 높은 평균 정확도를 달성하고 수학 벤치마크(AIME, AMC, MATH-500 등)에서 강건한 일반화를 보여준다.
SAGE-light는 GRPO에 비해 성능 향상을 유지하면서도 상당한 속도 향상을 제공하는 더 효율적인 변형이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.