Skip to main content
QUICK REVIEW

[논문 리뷰] XAI for Coding Agent Failures: Transforming Raw Execution Traces into Actionable Insights

Arun Joshi|arXiv (Cornell University)|2026. 03. 06.
Explainable Artificial Intelligence (XAI)인용 수 0
한 줄 요약

요약: 이 논문은 원시 코딩 에이전트 실행 추적을 해석 가능한 설명, 시각화 및 실행 가능한 수정으로 변환하는 구조화된 XAI 파이프라인을 제시하며, 원시 추적이나 일반 LLM 설명보다 정확도와 실패 이해 속도가 더 빠르다.

ABSTRACT

Large Language Model (LLM)-based coding agents show promise in automating software development tasks, yet they frequently fail in ways that are difficult for developers to understand and debug. While general-purpose LLMs like GPT can provide ad-hoc explanations of failures, raw execution traces remain challenging to interpret even for experienced developers. We present a systematic explainable AI (XAI) approach that transforms raw agent execution traces into structured, human-interpretable explanations. Our method consists of three key components: (1) a domain-specific failure taxonomy derived from analyzing real agent failures, (2) an automatic annotation system that classifies failures using defined annotation schema, (3) a hybrid explanation generator that produces visual execution flows, natural language explanations, and actionable recommendations. Through a user study with 20 participants (10 technical, 10 non-technical), we demonstrate that our approach enables users to identify failure root causes 2.8 times faster and propose correct fixes with 73% higher accuracy compared to raw execution traces. Importantly, our structured approach outperforms ad-hoc state of the art models explanations by providing consistent, domain-specific insights with integrated visualizations. Our work establishes a framework for systematic agent failure analysis, addressing the critical need for interpretable AI systems in software development workflows

연구 동기 및 목표

  • 도메인 특화 코드 에이전트 실패의 분류 체계( taxonomy) 개발.
  • 구조화된 스킴을 사용한 실패 주석 자동화.
  • 시각적, 텍스트, 실행 가능 출력물을 갖춘 하이브리드 설명 시스템 구축.
  • 구조화된 XAI가 원시 추적 및 일반 설명보다 성능이 우수한지 경험적으로 검증.

제안 방법

  • 다양한 실험 조건에서 32건의 실제 코딩 에이전트 실패로부터 실패 분류 체계 도출.
  • 구조화된 출력과 신뢰도 점수를 위한 기능 호출을 포함한 GPT-4를 이용한 자동 주석 시스템 생성.
  • 실행 흐름 시각화, 자연어 설명 및 역사적/권고 분석을 생성하는 통합 XAI 파이프라인 개발.
  • 원시 추적 및 일반 목적 LLM 설명과 비교하는 사용자 연구(N=20)로 접근법 평가.
Figure 1: System architecture showing the flow from raw trace to final explanation report. The system consists of three main components: automatic annotation, explanation generation, and report synthesis.
Figure 1: System architecture showing the flow from raw trace to final explanation report. The system consists of three main components: automatic annotation, explanation generation, and report synthesis.

실험 결과

연구 질문

  • RQ1HumanEval 작업을 해결하는 코딩 에이전트에서 어떤 실패 패턴이 나타나는가?
  • RQ2자동 주석이 도메인 특화 분류 체계로 실패를 정확하게 분류할 수 있는가?
  • RQ3구조화된 XAI 설명이 원시 추적 및 일반 LLM 설명과 비교하여 이해도, 근본 원인 식별의 정확도, 수정 품질을 향상시키는가?
  • RQ4시각화, 설명 및 권고가 기술적/비기술적 사용자에게 어떤 영향을 주는가?

주요 결과

그룹지표원시일반 목적 LLMs당사 XAI
기술적이해 시간(분)8.4±2.15.2±1.33.0±0.8
기술적근본 원인 정확도(%)42±1568±1289±8
기술적해결 품질(1-5)2.6±0.83.4±0.64.3±0.5
기술적신뢰도(1-7)3.2±1.14.8±0.96.1±0.7
비기술적이해 시간(분)12.8±3.27.1±1.84.2±1.1
비기술적근본 원인 정확도(%)18±1252±1876±11
비기술적해결 품질(1-5)1.4±0.62.8±0.73.8±0.6
비기술적신뢰도(1-7)2.1±0.94.2±1.15.6±0.8
  • 반복적 정제 실패가 지배적(32건 중 56%); 진행 없이 반복 한계 초과가 가장 일반적인 패턴.
  • 자동 분류기 정확도: 82.1% (26/32)로 고신뢰 예측에서 90.5%의 더 높은 정확도 및 상당한 일치(Cohen의 κ = 0.76).
  • 당사의 XAI 시스템은 실패 이해 속도가 더 빠르고 근본 원인 정확도가 더 높음(기술적 89%, 비기술적 76%) 대비 기준선.
  • 기술 참가자의 근본 원인 정확도는 원시 42%에서 당사 XAI 89%로 향상; 비기술적은 원시 18%에서 당사 XAI 76%로 향상.
  • 해결 제안은 당사 XAI에서 더 높은 점수(기술적 4.3/5, 비기술적 3.8/5)로 기준선보다 높게 평가.
  • 사용자들이 당사 XAI에 대해 더 높은 신뢰를 보고(기술적 6.1/7, 비기술적 5.6/7).
Figure 2: Exectuion Flow
Figure 2: Exectuion Flow

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.