[论文解读] Reinforced Efficient Reasoning via Semantically Diverse Exploration
ROSE 在蒙特卡洛树搜索中引入语义熵引导分支和 epsilon 探索机制,以为大模型生成多样且高效的推理路径,并且引入一个与长度相关的段级优势估计以鼓励简洁解答。
Reinforcement learning with verifiable rewards (RLVR) has proven effective in enhancing the reasoning of large language models (LLMs). Monte Carlo Tree Search (MCTS)-based extensions improve upon vanilla RLVR (e.g., GRPO) by providing tree-based reasoning rollouts that enable fine-grained and segment-level credit assignment. However, existing methods still suffer from limited exploration diversity and inefficient reasoning. To address the above challenges, we propose reinforced efficient reasoning via semantically diverse explorations, i.e., ROSE, for LLMs. To encourage more diverse reasoning exploration, our method incorporates a semantic-entropy-based branching strategy and an $\varepsilon$-exploration mechanism. The former operates on already sampled reasoning rollouts to capture semantic uncertainty and select branching points with high semantic divergence to generate new successive reasoning paths, whereas the latter stochastically initiates reasoning rollouts from the root, preventing the search process from becoming overly local. To improve efficiency, we design a length-aware segment-level advantage estimator that rewards concise and correct reasoning while penalizing unnecessarily long reasoning chains. Extensive experiments on various mathematical reasoning benchmarks with Qwen and Llama models validate the effectiveness and efficiency of ROSE. Codes are available at https://github.com/ZiqiZhao1/ROSE-rl.
研究动机与目标
- 在面向 LLM 的 RLVR 中,推动更丰富和更高效的推理,超越均匀信用分配。
- 开发基于语义熵的分支策略,以识别推理路径中高差异化的决策点。
- 引入一个 epsilon 探索机制,防止过于局部搜索,并促进从根节点的探索。
- 提出一个长度感知的段级优势估算,以奖励简洁且正确的推理并惩罚不必要的长链。
- 在多个模型家族的数学推理基准上评估 ROSE,以展示在有效性和效率方面的改进。
提出的方法
- 定义一个结合生成熵与语义差异性的语义熵指标,以识别推理路径中的分支点。
- 使用前 k 个符号的概率和符号嵌入在每个位置计算语义熵,以评估语义分散度。
- 使用类似 epsilon-greedy 的机制,在某些时刻从头重新生成回合,以确保更广泛的探索。
- 构建一个树状展开,其中段由支点节点和叶节点定义,便于实现段级价值估计。
- 将节点值设为穿越每个节点的回答的平均奖励,并从父/子节点值推导段级优势。
- 对较长但仍正确的推理链应用长度感知的修正,通过基于分支相对长度调整段级优势来惩罚。
- 使用改进后的 GRPO 目标函数(带 KL 惩罚)进行训练,遵循裁剪边界并使用 ROSE 特定的优势信号。

实验结果
研究问题
- RQ1语义熵引导的分支是否比基于熵的分支在推理路径的多样性上有提升?
- RQ2epsilon 探索机制是否防止过度局部搜索并提升在不同数据集上的泛化能力?
- RQ3长度感知的段级信用分配是否促使更高效(更短)且正确的推理,而不牺牲准确性?
- RQ4ROSE 的改进是否在多种模型尺度和数学推理基准上均有效?
- RQ5相较于 DR-GRPO、FR3E、TreePO 等基线,ROSE 在跨数据集的 pass@8 指标上表现如何?
主要发现
- ROSE 在多种模型族和数学基准上持续优于强力 GRPO 基线。
- 基于语义熵的分支比仅基于生成熵的分支能产生更丰富的推理轨迹,表现为嵌入相似性分布更广。
- epsilon 探索机制有助于避免过于局部的搜索,提高鲁棒性和性能。
- 长度感知的校准在保持或提升 pass@8 准确率的同时减少推理长度,且当 alpha 值适中时取得最佳折衷。
- 与 DR-GRPO、FR3E、TreePO 等基线相比,ROSE 在更困难的任务上取得显著提升,在模型更大时收益更明显。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。