[論文レビュー] Reinforced Efficient Reasoning via Semantically Diverse Exploration
ROSE はモンテカルロ木探索において意味的エントロピーガイド付き分岐とエpsilon 探索機構を導入し、LLM の多様で効率的な推論パスを生成する。さらに、長さを意識したセグメントレベルのアドバンテージ推定器を用いて、簡潔な解答を促し不必要に長い連鎖を抑制する。
Reinforcement learning with verifiable rewards (RLVR) has proven effective in enhancing the reasoning of large language models (LLMs). Monte Carlo Tree Search (MCTS)-based extensions improve upon vanilla RLVR (e.g., GRPO) by providing tree-based reasoning rollouts that enable fine-grained and segment-level credit assignment. However, existing methods still suffer from limited exploration diversity and inefficient reasoning. To address the above challenges, we propose reinforced efficient reasoning via semantically diverse explorations, i.e., ROSE, for LLMs. To encourage more diverse reasoning exploration, our method incorporates a semantic-entropy-based branching strategy and an $\varepsilon$-exploration mechanism. The former operates on already sampled reasoning rollouts to capture semantic uncertainty and select branching points with high semantic divergence to generate new successive reasoning paths, whereas the latter stochastically initiates reasoning rollouts from the root, preventing the search process from becoming overly local. To improve efficiency, we design a length-aware segment-level advantage estimator that rewards concise and correct reasoning while penalizing unnecessarily long reasoning chains. Extensive experiments on various mathematical reasoning benchmarks with Qwen and Llama models validate the effectiveness and efficiency of ROSE. Codes are available at https://github.com/ZiqiZhao1/ROSE-rl.
研究の動機と目的
- LLMs の RLVR における推論を均一クレジット割り当てを超えてより多様かつ効率的にする動機付け。
- 推論パスにおける高分岐決定点を特定する意味的エントロピーに基づく分岐戦略を開発。
- ルートからの探索を広げるために局所探索を過度に抑制しないエpsilon 探索機構を導入。
- 簡潔で正確な推論を報いるよう長さを意識したセグメントレベルのアドバンテージ推定器を提案。
- 複数のモデルファミリにわたる数学的推論のベンチマークで ROSE の有効性と効率性の改善を評価。
提案手法
- 推論パスの分岐点を特定する generation entropy と意味的発散を組み合わせた意味的エントロピ metric を定義。
- 前方k トークン確率とトークン埋め込みを用いて各位置で意味的分散を評価し意味的エントロピーを計算。
- エpsilon-greedy 的な仕組みを用い、ときどきスクラッチからロールアウトを再生成してより広範な探索を保証。
- ピボットノードとリーフによってセグメントを定義したツリー構造のロールアウトを構築し、セグメントレベルの価値推定を可能に。
- ノード値を各ノードを経由する応答の平均報酬として割り当て、親/子ノードの値からセグメントのアドバンテージを導出。
- 枝分かれの相対的な長さに基づいてセグメントアドバンテージを調整し、長くても正しい推論連鎖を抑制する長さを意識した校正を適用。
- KL ペナルティを伴う改善された GRPO 目的関数(クリッピング境界を尊重)を ROSE 固有のアドバンテージ信号を用いて訓練。

実験結果
リサーチクエスチョン
- RQ1意味的エントロピーに基づく分岐はエントロピーベースの分岐と比べて推論パスの多様性を高めるか。
- RQ2エpsilon 探索機構は過度に局所的な探索を防ぎ、データセット間の一般化を改善するか。
- RQ3長さを意識したセグメントレベルのクレジット割り当ては、正確性を損なわず推論をより効率的(短く)に促進するか。
- RQ4ROSE の改善は複数のモデル規模や数学的推論ベンチマークで有効か。
- RQ5ROSE はデータセット間での pass@8 指標において、DR-GRPO、FR3E、TreePO などの基準法と比較してどうか。
主な発見
- ROSE は複数のモデルファミリと数学的ベンチマークにおいて強力な GRPO ベースラインより一貫して性能を向上させた。
- 意味的エントロピーに基づく分岐は生成エントロピーのみと比べて推論軌跡が多様になり、埋め込み分布の幅広い差異が示唆される。
- エpsilon 探索機構は過度に局所的な探索を回避し、ロバスト性と性能の向上に寄与する。
- 長さを意識した校正は推論長を短くしつつ pass@8 の正確性を維持または向上させ、適度な α 値が最適なトレードオフを提供する。
- DR-GRPO、FR3E、TreePO などのベースラインと比較して、難易度の高いタスクで顕著なゲインを達成し、モデルが大きくなるほどより強い利益を示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。