[论文解读] Recoverability Has a Law: The ERR Measure for Tool-Augmented Agents
本论文通过 Expected Recovery Regret (ERR) 将工具增强代理中的可恢复性形式化,并推导出一个将 ERR 与可观测效率分数 (ES) 联系起来的一阶定律,在多种基准和模型规模上得到验证。
Language model agents often appear capable of self-recovery after failing tool call executions, yet this behavior lacks a formal explanation. We present a predictive theory that resolves this gap by showing that recoverability follows a measurable law. To elaborate, we formalize recoverability through Expected Recovery Regret (ERR), which quantifies the deviation of a recovery policy from the optimal one under stochastic execution noise, and derive a first-order relationship between ERR and an empirical observable quantity, the Efficiency Score (ES). This yields a falsifiable first-order quantitative law of recovery dynamics in tool-using agents. We empirically validate the law across five tool-use benchmarks spanning controlled perturbations, diagnostic reasoning, and real-world APIs. Across model scales, perturbation regimes, and recovery horizons, predicted regret under the ERR-ES law closely matched observed post-failure regret measured from Monte Carlo rollouts, within delta less than or equal to 0.05. Our results reveal that recoverability is not an artifact of model scale or architecture, but a governed property of interaction dynamics, providing a theoretical foundation for execution-level robustness in language agents.
研究动机与目标
- 推动在工具增强的语言模型中实现执行级鲁棒性,超越静态输入鲁棒性。
- 引入 Expected Recovery Regret (ERR) 作为在随机执行噪声下恢复性能的正式度量。
- 推导将 ERR 与一个可观测的 Efficiency Score (ES) 相关的一阶定律。
- 在多样化基准、扰动和模型尺度上进行实证验证,以确立可恢复性是交互动力学的受控属性。
提出的方法
- 定义具有随机扰动和每步成本有界的执行级设置。
- 将 ERR 正式化为在扰动过程下给定恢复策略与最优策略之间的损失差的期望值。
- 引入 Efficiency Score (ES) 作为 ES = RR / (1 + λC/Cmax) 并推导上界 ERR ≤ (1/(1−γ))(1−ES) + O(λcmax)。
- 在一阶线性化与有界成本假设下证明 ES 替代量的唯一性。
- 使用受控恢复策略和一个经验框架(FORTIFY)在基准和模型尺度上测试 ERR–ES 耦合。
- 进行蒙特卡洛滚动评估以计算 RR 和 ES,并将观测到的 ERR 与一阶预测进行比较。

实验结果
研究问题
- RQ1经验恢复 regret 是否按与 ES 的预测函数成比例的形式变化,具体为 (1−ES)/(1−γ)?
- RQ2ERR–ES 耦合是否在模型尺度、扰动区间和不同恢复策略下具有鲁棒性?
- RQ3效率–后悔流形是否在设置间呈现出不依赖于具体情形、机制和尺度的几何特征?
- RQ4哪些边界条件和失效模式可能导致 ERR–ES 定律失效?
主要发现
| Model | RR(%)↑ | CSR(% norm.)↑ | ES↑ | Obs. ERR↓ |
|---|---|---|---|---|
| Vanilla (14B) | 38.2±1.6 | 35.4±1.4 | 0.312±0.010 | 7.02±0.10 |
| ToolBench | 61.5±1.1 | 56.6±1.3 | 0.504±0.009 | 4.98±0.09 |
| ToolReflect | 69.9±1.0 | 62.2±1.1 | 0.577±0.009 | 4.25±0.09 |
| CRITIC | 78.7±0.9 | 67.9±1.0 | 0.661±0.008 | 3.41±0.08 |
| FORTIFY | 94.7±0.8 | 85.1±1.0 | 0.814±0.007 | 1.78±0.07 |
- 在所有测试的基准和模型中,恢复后悔随着 Efficiency Score 的提升而下降。
- 检索与恢复加权等恢复机制使系统沿着共享的效率–后悔前沿移动,而非进入新的范式。
- 扩大到更大模型时,轨迹方差降低,ERR–ES 定律的拟合更紧密,同时保持流形结构。
- 早期步骤的效率对长周期性能起主导作用,早期改进抑制下游后悔。
- 从 ES 预测的 ERR 与在不同模型和环境中观测到的 ERR 接近一致,且在预定义的范数界内的偏差较小。
- 在五个基准和多种环境中,ES 能稳定预测 ERR,Δ_norm 值较小,表明跨模型和跨环境的有效性。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。