QUICK REVIEW

[논문 리뷰] Towards a Science of AI Agent Reliability

Stephan Rabanser, Sayash Kapoor|arXiv (Cornell University)|2026. 02. 18.

Ethics and Social Impacts of AI인용 수 2

한 줄 요약

이 논문은 AI 에이전트를 위한 안전‑중요 다차원 신뢰성 프레임워크를 제시하고, 신뢰성을 일관성, 강인성, 예측가능성, 안전성의 네 가지로 분해한 뒤 두 벤치마크에서 14개 모델을 평가하여 신뢰성이 능력 증가에 비해 뒤처져 있음을 보여준다.

ABSTRACT

AI agents are increasingly deployed to execute important tasks. While rising accuracy scores on standard benchmarks suggest rapid progress, many agents still continue to fail in practice. This discrepancy highlights a fundamental limitation of current evaluations: compressing agent behavior into a single success metric obscures critical operational flaws. Notably, it ignores whether agents behave consistently across runs, withstand perturbations, fail predictably, or have bounded error severity. Grounded in safety-critical engineering, we provide a holistic performance profile by proposing twelve concrete metrics that decompose agent reliability along four key dimensions: consistency, robustness, predictability, and safety. Evaluating 14 models across two complementary benchmarks, we find that recent capability gains have only yielded small improvements in reliability. By exposing these persistent limitations, our metrics complement traditional evaluations while offering tools for reasoning about how agents perform, degrade, and fail.

연구 동기 및 목표

AI 에이전트의 신뢰성을 안전‑중요 공학 원칙을 네 차원(일관성, 강인성, 예측가능성, 안전성)에 맞춰 정의한다.
원시 작업 정확도와 무관한 신뢰성 측정 12-지표 평가 체계를 제안한다.
현재 AI 에이전트를 벤치마크하고 분석하여 신뢰성이 능력 증가를 따라가지 못하는 영역을 매핑하고 우선 연구 분야를 식별한다.
정확도 이상의 성능, 악화, 실패 모드에 대해 실무자가 에이전트 성능을 논의하는 프레임워크를 제공한다.

제안 방법

항공, 원자력, 자동차, 공정 제어에서의 신뢰성 개념을 차용하여 신뢰성을 네 가지 차원으로 분해한다.
원시 정확도와 무관한 12개의 구체적 차원별 지표를 정의한다(섹션 3).
차원 내 지표를 합산하고 투명한 집계 선택(섹션 3의 방정식 및 표)을 통해 전반적 신뢰도 점수를 제시한다.
GAIA 및 τ-bench의 두 벤치마크에서 14개 모델을 다중 실행, 프롬프트 변동성, 결함 주입, 환경 변동성, 신뢰성 추정, 안전성 분석으로 평가한다(섹션 4).
정규화 및 비율 기반 비교를 통해 신뢰성과 능력 간의 결합 해제를 보장한다(섹션 3.5.1).
다중 실행 평가(K=5), 의역 프롬프트, 결함 주입, 안전성 분석을 포함하는 상세 실험 프로토콜을 제공한다(섹션 4.1).

Figure 1 : Reliability gains lag behind capability progress. Overall reliability shows slow improvement over time. While accuracy rises steadily across both benchmarks (left), reliability trails behind (center), and the relationship between the two varies across benchmarks (right), indicating that a

실험 결과

연구 질문

RQ1AI 에이전트의 신뢰성을 기존의 정확도 지표를 넘어 정의하고 측정하는 방법은 무엇인가?
RQ2표준화된 벤치마크에서 현재 AI 에이전트의 실증적 신뢰성 프로파일은 어떠한가?
RQ3신뢰성 차원은 모델 능력 및 출시일과 어떻게 상호작용하는가?
RQ4배포 준비된 AI 에이전트를 위한 우선 연구가 필요한 신뢰성 차원은 무엇인가?

주요 결과

신뢰성 향상은 모델 버전 및 벤치마크에서 능력 향상에 비해 뒤처진다.
결과 일관성은 여전히 낮으며, 태스크를 해결하더라도 반복 실행에서 일관되지 않는 경우가 많다.
프롬프트 강건성은 모델 간 차이가 있으며 최전선 모델이 다소 개선되지만 패러프레이즈에 대한 보편적 탄력성은 아직 미미하다.
보정은 최신 모델에서 개선되나 일부 벤치마크, 특히 GAIA에서 판별력이 악화될 수 있다.
최근 최전선 모델은 위반 비율이 더 낮아졌으나 위반이 발생할 때 해 악성의 심각성은 여전히 무시할 수 없다.
일관성은 더 작은 모델에서 더 높게 나타나는 경향이 있어 더 큰 모델은 변동성이 더 큰 경향이 있으며, 추론 모델은 신뢰성 향상에 혼재된 특성을 보인다.

Figure 2 : Outcome consistency across models. Results show only modest consistency across the board; even current frontier models do not reliably improve across both benchmarks.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.