QUICK REVIEW

[論文レビュー] Towards a Science of AI Agent Reliability

Stephan Rabanser, Sayash Kapoor|arXiv (Cornell University)|Feb 18, 2026

Ethics and Social Impacts of AI被引用数 2

ひとこと要約

要約: 本論文はAIエージェントの安全 critical性を持つ多次元信頼性フレームワークを提案し、信頼性を一貫性、頑健性、予測可能性、そして安全性の四つの次元に分解し、2つのベンチマークで14モデルを評価して信頼性が能力向上に遅れをとっていることを示します。

ABSTRACT

AI agents are increasingly deployed to execute important tasks. While rising accuracy scores on standard benchmarks suggest rapid progress, many agents still continue to fail in practice. This discrepancy highlights a fundamental limitation of current evaluations: compressing agent behavior into a single success metric obscures critical operational flaws. Notably, it ignores whether agents behave consistently across runs, withstand perturbations, fail predictably, or have bounded error severity. Grounded in safety-critical engineering, we provide a holistic performance profile by proposing twelve concrete metrics that decompose agent reliability along four key dimensions: consistency, robustness, predictability, and safety. Evaluating 14 models across two complementary benchmarks, we find that recent capability gains have only yielded small improvements in reliability. By exposing these persistent limitations, our metrics complement traditional evaluations while offering tools for reasoning about how agents perform, degrade, and fail.

研究の動機と目的

AIエージェントの信頼性を、安全 criticalなエンジニアリング原理を四つの次元（一貫性、頑健性、予測可能性、安全性）に適用して定義する。
生のタスク精度に依存しない十二指標の評価スイートを提案する。
現在のAIエージェントをベンチマークし、信頼性が能力向上に遅れをとっている箇所をマッピングし、優先的な研究領域を特定する。
精度以外のエージェント性能、劣化、故障モードを実務家がReasonできる枠組みを提供する。

提案手法

信頼性の概念を航空、原子力、自動車、プロセス制御から採用し、信頼性を四つの次元に分解する。
生の精度とは独立した十二個の具体的な次元別指標を定義する（セクション3）。
次元内で指標を集計し、透明な集計選択による全体信頼性スコアを提示する（セクション3の式と表）。
GAIAとτ-benchの二つのベンチマークで14モデルを、マルチラン、プロンプト撹乱、故障注入、環境撹乱、信頼度推定、セーフティ分析を用いて評価する（セクション4）。
機能と能力を正規化と比率ベース比較で切り離す（セクション3.5.1）。
マルチラン評価（K=5）、言い換えプロンプト、故障注入、セーフティ分析を含む詳細な実験プロトコルを提供する（セクション4.1）。

Figure 1 : Reliability gains lag behind capability progress. Overall reliability shows slow improvement over time. While accuracy rises steadily across both benchmarks (left), reliability trails behind (center), and the relationship between the two varies across benchmarks (right), indicating that a

実験結果

リサーチクエスチョン

RQ1AIエージェントの信頼性を従来の精度指標を超えて定義・測定するにはどうするか。
RQ2標準化されたベンチマークにおける現在のAIエージェントの経験的信頼性プロファイルはどうか。
RQ3信頼性次元はモデルの能力やリリース日とどう相互作用するか。
RQ4デプロイ準備が整ったAIエージェントのために、どの信頼性次元を優先的に研究すべきか。

主な発見

信頼性の向上はモデルのリリースおよびベンチマーク全体で能力の進歩に遅れている。
結果の一貫性は低いままで、タスクを解く場合でも繰り返し実行時の一貫性が保てないエージェントが多い。
プロンプト堅牢性はモデル間でばらつきがあり、フロンティアモデルは若干の改善を示すが、言い換えに対する普遍的耐性はまだ不足。
較正は新しいモデルで改善するが、識別性は一部ベンチマーク、特にGAIAで悪化する可能性がある。
最近のフロンティアモデルは違反率が低いが、違反が起きた場合の被害重症度は依然として無視できない。
最近のフロンティアモデルは違反率が低いが、違反が起きた場合の被害重症度は依然として無視できない。
一部のモデルで一貫性は小型モデルの方が高い傾向があり、より大きなモデルは変動が大きい可能性。推論モデルは信頼性の改善が混在。

Figure 2 : Outcome consistency across models. Results show only modest consistency across the board; even current frontier models do not reliably improve across both benchmarks.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。