QUICK REVIEW

[논문 리뷰] Interpretable Failure Analysis in Multi-Agent Reinforcement Learning Systems

Risal Shefin, Debashis Gupta|arXiv (Cornell University)|2026. 02. 08.

Adversarial Robustness in Machine Learning인용 수 0

한 줄 요약

이 논문은 MARL에서 해석 가능한 실패 분석을 위한 두 단계 경사 기반 프레임워크를 제시하여 진짜 Patient-0를 식별하고 실패가 학습된 협력 경로를 통해 어떻게 전파되는지 추적하며, Simple Spread 및 StarCraft II 벤치마크에서 강력한 성능을 보입니다.

ABSTRACT

Multi-Agent Reinforcement Learning (MARL) is increasingly deployed in safety-critical domains, yet methods for interpretable failure detection and attribution remain underdeveloped. We introduce a two-stage gradient-based framework that provides interpretable diagnostics for three critical failure analysis tasks: (1) detecting the true initial failure source (Patient-0); (2) validating why non-attacked agents may be flagged first due to domino effects; and (3) tracing how failures propagate through learned coordination pathways. Stage 1 performs interpretable per-agent failure detection via Taylor-remainder analysis of policy-gradient costs, declaring an initial Patient-0 candidate at the first threshold crossing. Stage 2 provides validation through geometric analysis of critic derivatives-first-order sensitivity and directional second-order curvature aggregated over causal windows to construct interpretable contagion graphs. This approach explains "downstream-first" detection anomalies by revealing pathways that amplify upstream deviations. Evaluated across 500 episodes in Simple Spread (3 and 5 agents) and 100 episodes in StarCraft II using MADDPG and HATRPO, our method achieves 88.2-99.4% Patient-0 detection accuracy while providing interpretable geometric evidence for detection decisions. By moving beyond black-box detection to interpretable gradient-level forensics, this framework offers practical tools for diagnosing cascading failures in safety-critical MARL systems.

연구 동기 및 목표

안전 중심 MARL 설정에서 해석 가능한 실패 분석의 필요성에 동기를 부여한다.
진정한 실패 원인을 탐지하고 전파 경로를 검증하기 위한 두 단계 경사 기반 프레임워크를 제안한다.
영향력, 증폭, 실패의 타이밍을 요약하는 해석 가능한 전염 그래프를 제공한다.
여러 환경과 MARL 알고리즘에 걸쳐 방법을 경험적으로 평가하여 높은 Patient-0 탐지 정확도와 실행 가능한 설명을 시연한다.

제안 방법

Stage 1: 정책-그레이디언트 비용의 Taylor remainder 분석을 통해 per-agent 정책 불안정성을 탐지하고 1차 임계값 교차에서 Player-0 후보를 식별한다.
Stage 2: 비평가 미분(일차)과 방향성 이차 곡률을 사용하여 업스트림 영향력을 추적하고 해석 가능한 전염 그래프를 구성하여 Patient-0 후보를 검증한다.
Edges는 영향력 강도, 증폭 빈도, 전파 타이밍을 요약하는 방향성 전염 그래프를 사용한다.
G_{ij}, H_{ij}, D_{ij}와 같은 흐름 기반 지표를 계산하여 가속화 영향과 감쇠 영향의 차이를 구분하고 다운스트림-우선 오탐지를 드러낸다.
짧은 인과 윈도우에서 정보를 집계하여 edge-레벨 요약(IS, CR)과 에pisode-레벨 영향 그래프를 산출한다.
높은 영향력을 가진 엣지의 인과적 역할을 검증하기 위한 개입 프로토콜을 제시하여 중요 시점 대 강건한 시점에서의 공격을 비교한다.

(a) Stage 1: Taylor approximation error in all agents

실험 결과

연구 질문

RQ1Q1: 진짜 Patient-0은 누구인가—비robust 상태에 처음 진입한 에이전트인가?
RQ2Q2: 비공격 에이전트가 먼저 지목될 수 있는 이유는 무엇이며, traceback이 이 잘못된 식별을 바로잡을 수 있는가?
RQ3Q3: 얼마나 불안정성이 시스템의 학습된 협력 경로를 통해 에이전트 간에 시간에 따라 전파되는가?
RQ4Q4: 프레임워크가 영향력, 증폭, 실패의 타이밍을 요약하는 해석 가능한 전염 그래프를 제공할 수 있는가?

주요 결과

Setting	Algorithm	Stage-1 Accuracy	Correction Rate	Combined Accuracy
SimpleSpread-3	MADDPG	95.7%	66.9%	98.6%
SimpleSpread-3	HATRPO	99.1%	66.7%	99.4%
SimpleSpread-5	MADDPG	88.1%	40.1%	92.8%
SimpleSpread-5	HATRPO	98.9%	48.6%	99.2%
SMAC (3s_v_3z)	MADDPG	84.0%	70.8%	88.2%
SMAC (3s_v_3z)	HATRPO	94.8%	67.7%	98.3%

Stage-1 탐지는 설정 간 88.2%–99.4%의 Patient-0 식별 정확도를 달성한다.
Stage-2 보정은 정확도를 향상시키며 특히 협력 환경(SMAC)에서 뚜렷한 이득을 보인다.
Instability Occupancy(IO)는 많은 경우에서 전통적 성능 지표(AUC-Q, AUC-Reward, reward 기반 지표)보다 약 20+ 포인트 정도 우수하게 나타난다.
HATRPO는 일반적으로 MADDPG보다 더 깨끗한 Taylor-오차 신호와 더 높은 Stage-1 정확도를 보이며, 더 매끄러운 그래디언트 지형 때문이다.
Stage-2 traceback은 다운스트림-우선 실패 사례에서 참된 업스트림 소스를 효과적으로 복원하고 해석 가능한 전염 그래프를 생성한다.
임팩트가 큰 순간(가속화)에 대한 개입은 강건한 시점의 개입보다 다운스트림 불안정성을 훨씬 크게 증가시켜 영향 지표의 인과적 활용성을 검증한다.

(b) Stage 1,2: Influence timeline from the detection time of Patient-0 to the detection of the last faulty agent

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.