[論文レビュー] Recoverability Has a Law: The ERR Measure for Tool-Augmented Agents
この論文は、ツール強化エージェントにおける回復可能性をExpected Recovery Regret (ERR) で形式化し、ERRと観測可能なEfficiency Score (ES) を結ぶ一階近似の法則を導出し、複数のベンチマークとモデルスケールで検証する。
Language model agents often appear capable of self-recovery after failing tool call executions, yet this behavior lacks a formal explanation. We present a predictive theory that resolves this gap by showing that recoverability follows a measurable law. To elaborate, we formalize recoverability through Expected Recovery Regret (ERR), which quantifies the deviation of a recovery policy from the optimal one under stochastic execution noise, and derive a first-order relationship between ERR and an empirical observable quantity, the Efficiency Score (ES). This yields a falsifiable first-order quantitative law of recovery dynamics in tool-using agents. We empirically validate the law across five tool-use benchmarks spanning controlled perturbations, diagnostic reasoning, and real-world APIs. Across model scales, perturbation regimes, and recovery horizons, predicted regret under the ERR-ES law closely matched observed post-failure regret measured from Monte Carlo rollouts, within delta less than or equal to 0.05. Our results reveal that recoverability is not an artifact of model scale or architecture, but a governed property of interaction dynamics, providing a theoretical foundation for execution-level robustness in language agents.
研究の動機と目的
- ツール強化言語モデルの静的入力ロバスト性を超えた実行レベルのロバスト性の必要性を動機づける。
- 確率的実行ノイズの下での回復性能を形式的に測定する指標としてExpected Recovery Regret (ERR) を導入する。
- ERR–ESの一階近似法則を導出し、ERRと観測可能なEfficiency Score (ES) を関連づける。
- 多様なベンチマーク・摂動・モデルスケールを横断して法則を経験的に検証し、相互作用ダイナミクスの統制可能な特性としての回復可能性を確立する。
提案手法
- 確率的摂動と制限付きステップコストを含む実行レベル設定を定義する。
- 摂動プロセス下での回復ポリシーと最適ポリシーの間の損失ギャップの期待値としてERRを形式化する。
- Efficiency Score (ES) を ES = RR / (1 + λC/Cmax) と定義し、上界 ERR ≤ (1/(1−γ))(1−ES) + O(λcmax) を導出する。
- 一階線形化と制限コスト仮定の下でES代理変数の一意性を証明する。
- 統制された回復ポリシーと経験的フレームワーク(FORTIFY)を用いて、ベンチマークとモデルスケールを横断してERR–ES結合を検証する。
- モンテカルロローアウトを用いてRRとESを算出し、観測されたERRを一階予測と比較する。

実験結果
リサーチクエスチョン
- RQ1ERRがESの予測関数(特に (1−ES)/(1−γ) )に従ってスケールするか?
- RQ2ERR–ES結合はモデルスケール・摂動レジーム・異なる回復戦略を越えて頑健か?
- RQ3効率–後悔の多様体は設定を超えて制度不変・機構不変・スケール不変の幾何を示すか?
- RQ4ERR–ES法則が崩れる境界条件と故障モードは何か?
主な発見
| Model | RR(%)↑ | CSR(% norm.)↑ | ES↑ | Obs. ERR↓ |
|---|---|---|---|---|
| Vanilla (14B) | 38.2±1.6 | 35.4±1.4 | 0.312±0.010 | 7.02±0.10 |
| ToolBench | 61.5±1.1 | 56.6±1.3 | 0.504±0.009 | 4.98±0.09 |
| ToolReflect | 69.9±1.0 | 62.2±1.1 | 0.577±0.009 | 4.25±0.09 |
| CRITIC | 78.7±0.9 | 67.9±1.0 | 0.661±0.008 | 3.41±0.08 |
| FORTIFY | 94.7±0.8 | 85.1±1.0 | 0.814±0.007 | 1.78±0.07 |
- 回復後悔は、試験した全ベンチマークとモデルでEfficiency Scoreが大きくなるほど減少する。
- 回復機構(取り出し・回復重み付け)はシステムを共有の効率–後悔フロンティア上へ移動させ、新たなレジームには移動させない。
- 大規模モデルへのスケーリングは軌道分散を減少させ、ERR–ES法則への適合を強化しつつ多様体構造を保つ。
- 初期ステップの効率が長期パフォーマンスを支配し、初期の改善が下流の後悔を抑制する。
- ESから予測されるERRは、モデルや環境を超えて観測されたERRと高い一致を示し、規定ノルム範囲内の小さな偏差。
- 5つのベンチマークと複数の環境を跨いで、ESはERRを小さなΔ_norm値で安定的に予測し、モデル間・環境間の妥当性を示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。