[논문 리뷰] Reinforced Efficient Reasoning via Semantically Diverse Exploration
ROSE는 MCTS 내에서 의미-엔트로피 기반 분기와 엡실론 탐색 메커니즘을 도입하여 LLM의 다양한이고 효율적인 추론 경로를 생성하고, 간결한 해법을 유도하는 길이 의식적 세그먼트 수준 이점 추정기를 제공한다.
Reinforcement learning with verifiable rewards (RLVR) has proven effective in enhancing the reasoning of large language models (LLMs). Monte Carlo Tree Search (MCTS)-based extensions improve upon vanilla RLVR (e.g., GRPO) by providing tree-based reasoning rollouts that enable fine-grained and segment-level credit assignment. However, existing methods still suffer from limited exploration diversity and inefficient reasoning. To address the above challenges, we propose reinforced efficient reasoning via semantically diverse explorations, i.e., ROSE, for LLMs. To encourage more diverse reasoning exploration, our method incorporates a semantic-entropy-based branching strategy and an $\varepsilon$-exploration mechanism. The former operates on already sampled reasoning rollouts to capture semantic uncertainty and select branching points with high semantic divergence to generate new successive reasoning paths, whereas the latter stochastically initiates reasoning rollouts from the root, preventing the search process from becoming overly local. To improve efficiency, we design a length-aware segment-level advantage estimator that rewards concise and correct reasoning while penalizing unnecessarily long reasoning chains. Extensive experiments on various mathematical reasoning benchmarks with Qwen and Llama models validate the effectiveness and efficiency of ROSE. Codes are available at https://github.com/ZiqiZhao1/ROSE-rl.
연구 동기 및 목표
- LLMs를 위한 RLVR에서 균등 크레딧 할당을 넘어 더 다양하고 효율적인 추론을 동기부여한다.
- 추론 경로에서 높은 발산 의사결정 지점을 식별하기 위한 의미-엔트로피 기반 분기 전략을 개발한다.
- 너무 국소적 탐색을 방지하고 루트에서의 탐색을 촉진하기 위해 엡실론 탐색 메커니즘을 도입한다.
- 간결하고 올바른 추론을 보상하고 불필요하게 긴 체인을 벌하기 위한 길이 의식적 세그먼트 수준 이점 추정기를 제안한다.
- 다양한 모델 계열에 걸친 수학적 추론 벤치마크에서 ROSE를 평가하여 효과성과 효율성의 향상을 입증한다.
제안 방법
- 생성 엔트로피와 의미적 발산을 결합한 의미-엔트로피 메트릭을 정의하여 추론 경로에서 분기점을 식별한다.
- 상위-k 토큰 확률과 토큰 임베딩을 사용하여 각 위치에서 의미 엔트로피를 계산하고 의미 확산을 평가한다.
- 가끔 처음부터 롤아웃을 재생성하는 epsilon-그리디 유사 메커니즘을 사용하여 더 넓은 탐색을 보장한다.
- 피봇 노드와 리프에 의해 세그먼트가 정의되는 트리 구조의 롤아웃을 구성하여 세그먼트 수준의 가치 추정이 가능하게 한다.
- 각 노드를 통과하는 응답의 평균 보상으로 노드 값을 할당하고 부모/자식 노드 값으로 세그먼트 이점을 도출한다.
- 가지 분기의 상대적 길이에 따라 세그먼트 이점을 조정하여 더 길고 여전히 올바른 추론 체계를 벌하는 길이 의식 보정을 적용한다.
- 클리핑 경계를 준수하고 ROSE 특유의 이점 신호를 사용하는 향상된 GRPO 목표(KL 패널티 포함)로 학습한다.

실험 결과
연구 질문
- RQ1의미-엔트로피 가이드 분기가 엔트로피 기반 분기와 비교하여 추론 경로의 다양성을 증가시킬 수 있는가?
- RQ2엘실론 탐색 메커니즘이 과도한 로컬 탐색을 방지하고 데이터셋 전반에서 일반화 성능을 향상시키는가?
- RQ3길이 의식적 세그먼트 수준 크레딧 할당이 정확도를 해치지 않으면서 더 효율적인(짧은) 올바른 추론을 촉진하는가?
- RQ4ROSE의 개선이 여러 모델 규모와 수학적 추론 벤치마크에서 유지되는가?
- RQ5데이터셋 전반에서 pass@8 지표에 대해 기존 GRPO 기반 및 MCTS 기반 기준선과 ROSE의 비교는 어떠한가?
주요 결과
- ROSE는 여러 모델 패밀리와 수학 벤치마크에서 강력한 GRPO 기준선에 비해 일관되게 성능을 향상시킨다.
- 의미-엔트로피 기반 분기는 생성 엔트로피 단독보다 더 다양한 추론 궤적을 산출하며, 임베딩 유사성 분포가 더 넓게 나타난다는 증거가 있다.
- 엘실론 탐색 메커니즘은 과도한 로컬 탐색을 회피하는 데 도움을 주어 더 나은 강인성과 성능에 기여한다.
- 길이 의식 보정은 추론 길이를 줄이면서 pass@8 정확도를 유지하거나 향상시키고, 중간(alpha) 값이 최적의 절충안을 제공한다.
- DR-GRPO, FR3E, TreePO와 같은 기준선과 비교할 때, ROSE는 더 어려운 작업에서 주목할 만한 이득을 얻고 큰 모델일수록 더 강한 이득을 보인다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.