[论文解读] EDIS: Diagnosing LLM Reasoning via Entropy Dynamics
EDIS 分析令牌级熵轨迹以检测LLM推理中的不稳定思维模式,并使用基于轨迹的分数来改进推理阶段的选择和引导RL训练,在相对于静态置信度指标上取得显著的准确性提升。
Entropy-based confidence signals are increasingly leveraged to improve reasoning in large language models (LLMs), yet existing approaches treat confidence as a static quantity -- typically aggregated over tokens. We show that the \emph{temporal evolution} of confidence during generation carries richer information than aggregate statistics alone. Analyzing token-level entropy trajectories, we identify characteristic patterns distinguishing correct from incorrect reasoning: erroneous solutions exhibit unstable dynamics, including burst spikes (sustained uncertainty growth) and peak-valley spikes (sharp rebounds following transient confidence). These patterns persist across models and training stages, suggesting they reflect intrinsic properties of reasoning failure rather than superficial noise. To formalize this observation, we introduce the Entropy Dynamics Instability Score ( extbf{EDIS}), a trajectory-level metric quantifying instability in entropy evolution. EDIS serves as an effective diagnostic signal for inference-time selection, substantially improving reasoning accuracy, and offers a promising direction for training-time sample curation. Our findings establish entropy dynamics as an underexplored yet informative lens for understanding and improving LLM reasoning.
研究动机与目标
- 需要推动超越静态置信信号,在自回归生成过程中进行动态熵分析。
- 识别与错误推理相关的特征熵动态模式(爆发式峰值和峰谷式峰值)。
- 提出并形式化熵动态不稳定性分数(Entropy Dynamics Instability Score, EDIS),以量化熵的不稳定性。
- 证明 EDIS 能提高推理时间的选择准确性,并为 RL 训练提供时机信号。
- 评估 EDIS 相对于其他置信度量的表现,并讨论局限性及未来方向。
提出的方法
- 在自回归生成过程中分析令牌层面的熵轨迹 H_t。
- 将不稳定性模式定义为:通过窗口内的累计熵增长形成的爆发式峰值,以及从历史最小值回 rebound 的峰谷式峰值。
- 引入 EDIS = S(H) * (1 + Var(H)),其中 S(H) 将爆发与回 rebound 计数结合,Var(H) 为熵的方差。
- 以 GRPO 作为 RL 框架,在训练中使用 EDIS 进行样本选择与加权。
- 在多模型、不同温度和数据集上,将 EDIS 与平均熵、自我确定性、序列熵等进行比较。

实验结果
研究问题
- RQ1生成过程中的熵演化是否比静态熵指标能提供更丰富的信号以区分正确与错误推理?
- RQ2EDIS 是否能够在不同模型、温度和训练阶段下稳定地区分正确与错误的答案?
- RQ3与其他置信信号相比,EDIS 在推理时的最佳-若干(best-of-N)选择上表现如何?
- RQ4EDIS 指导的训练信号是否可以提升基于强化学习的LLM训练效果?
- RQ5在使用熵动态进行模型训练与评估方面,实际的局限性与潜在扩展有哪些?
主要发现
| m | 数据集 | Mean | Maj Vote | Entropy | SC | EDIS | Overall |
|---|---|---|---|---|---|---|---|
| 4 | GSM8K | 36.0 | 47.3 | 53.3 | 56.3 | 67.3 | 31.0, 44.9, 49.3, 50.7, 57.0 |
| 4 | MATH | 30.0 | 46.3 | 50.7 | 53.0 | 58.0 | |
| 4 | AMC23 | 38.9 | 56.7 | 58.3 | 56.7 | 55.8 | |
| 4 | AIME24 | 7.2 | 16.7 | 18.9 | 16.7 | 21.1 | |
| 4 | Overall | 31.0 | 44.9 | 49.3 | 50.7 | 57.0 | |
| 8 | GSM8K | 36.3 | 49.7 | 56.7 | 58.7 | 72.3 | |
| 8 | MATH | 29.5 | 46.0 | 50.3 | 52.3 | 60.0 | |
| 8 | AMC23 | 38.2 | 59.2 | 60.0 | 59.2 | 57.5 | |
| 8 | AIME24 | 7.5 | 16.7 | 16.7 | 17.8 | 17.8 | |
| 8 | Overall | 30.8 | 46.1 | 50.4 | 51.9 | 59.5 | |
| 16 | GSM8K | 35.6 | 49.0 | 55.0 | 56.0 | 72.3 | |
| 16 | MATH | 29.5 | 47.3 | 52.0 | 54.0 | 62.3 | |
| 16 | AMC23 | 37.6 | 57.5 | 60.8 | 60.0 | 55.8 | |
| 16 | AIME24 | 6.9 | 17.8 | 20.0 | 18.9 | 22.2 | |
| 16 | Overall | 30.4 | 46.2 | 50.9 | 51.7 | 60.6 |
- 错误解答表现出更大的熵波动(1.7x–3.6x)以及两种不稳定模式:爆发式峰值和峰谷式峰值。
- EDIS 能可靠地区分正确与错误的轨迹,其分布中存在显著的中心值。
- 基于 EDIS 的最佳-若干选择在基准和模型上的相对准确性提升可达约 82%(例如从 29.9% 提升至 54.5%)。
- 在推理时间的选择上,EDIS 优于平均熵、自我确定性和序列熵,覆盖多数据集和候选池规模。
- 在 RL 实验中,EDIS 指导下的训练在 maj@8 增加最多 +7.7 个百分点、mean@8 增加最多 +8.0 个百分点,同时输出更短、熵更低的回答,显示训练时的收益。
- EDIS 可以通过过滤与加权机制实现对训练时样本的辅助筛选,消融实验显示权重化带来最大收益。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。