[논문 리뷰] XAI for Coding Agent Failures: Transforming Raw Execution Traces into Actionable Insights
요약: 이 논문은 원시 코딩 에이전트 실행 추적을 해석 가능한 설명, 시각화 및 실행 가능한 수정으로 변환하는 구조화된 XAI 파이프라인을 제시하며, 원시 추적이나 일반 LLM 설명보다 정확도와 실패 이해 속도가 더 빠르다.
Large Language Model (LLM)-based coding agents show promise in automating software development tasks, yet they frequently fail in ways that are difficult for developers to understand and debug. While general-purpose LLMs like GPT can provide ad-hoc explanations of failures, raw execution traces remain challenging to interpret even for experienced developers. We present a systematic explainable AI (XAI) approach that transforms raw agent execution traces into structured, human-interpretable explanations. Our method consists of three key components: (1) a domain-specific failure taxonomy derived from analyzing real agent failures, (2) an automatic annotation system that classifies failures using defined annotation schema, (3) a hybrid explanation generator that produces visual execution flows, natural language explanations, and actionable recommendations. Through a user study with 20 participants (10 technical, 10 non-technical), we demonstrate that our approach enables users to identify failure root causes 2.8 times faster and propose correct fixes with 73% higher accuracy compared to raw execution traces. Importantly, our structured approach outperforms ad-hoc state of the art models explanations by providing consistent, domain-specific insights with integrated visualizations. Our work establishes a framework for systematic agent failure analysis, addressing the critical need for interpretable AI systems in software development workflows
연구 동기 및 목표
- 도메인 특화 코드 에이전트 실패의 분류 체계( taxonomy) 개발.
- 구조화된 스킴을 사용한 실패 주석 자동화.
- 시각적, 텍스트, 실행 가능 출력물을 갖춘 하이브리드 설명 시스템 구축.
- 구조화된 XAI가 원시 추적 및 일반 설명보다 성능이 우수한지 경험적으로 검증.
제안 방법
- 다양한 실험 조건에서 32건의 실제 코딩 에이전트 실패로부터 실패 분류 체계 도출.
- 구조화된 출력과 신뢰도 점수를 위한 기능 호출을 포함한 GPT-4를 이용한 자동 주석 시스템 생성.
- 실행 흐름 시각화, 자연어 설명 및 역사적/권고 분석을 생성하는 통합 XAI 파이프라인 개발.
- 원시 추적 및 일반 목적 LLM 설명과 비교하는 사용자 연구(N=20)로 접근법 평가.

실험 결과
연구 질문
- RQ1HumanEval 작업을 해결하는 코딩 에이전트에서 어떤 실패 패턴이 나타나는가?
- RQ2자동 주석이 도메인 특화 분류 체계로 실패를 정확하게 분류할 수 있는가?
- RQ3구조화된 XAI 설명이 원시 추적 및 일반 LLM 설명과 비교하여 이해도, 근본 원인 식별의 정확도, 수정 품질을 향상시키는가?
- RQ4시각화, 설명 및 권고가 기술적/비기술적 사용자에게 어떤 영향을 주는가?
주요 결과
| 그룹 | 지표 | 원시 | 일반 목적 LLMs | 당사 XAI |
|---|---|---|---|---|
| 기술적 | 이해 시간(분) | 8.4±2.1 | 5.2±1.3 | 3.0±0.8 |
| 기술적 | 근본 원인 정확도(%) | 42±15 | 68±12 | 89±8 |
| 기술적 | 해결 품질(1-5) | 2.6±0.8 | 3.4±0.6 | 4.3±0.5 |
| 기술적 | 신뢰도(1-7) | 3.2±1.1 | 4.8±0.9 | 6.1±0.7 |
| 비기술적 | 이해 시간(분) | 12.8±3.2 | 7.1±1.8 | 4.2±1.1 |
| 비기술적 | 근본 원인 정확도(%) | 18±12 | 52±18 | 76±11 |
| 비기술적 | 해결 품질(1-5) | 1.4±0.6 | 2.8±0.7 | 3.8±0.6 |
| 비기술적 | 신뢰도(1-7) | 2.1±0.9 | 4.2±1.1 | 5.6±0.8 |
- 반복적 정제 실패가 지배적(32건 중 56%); 진행 없이 반복 한계 초과가 가장 일반적인 패턴.
- 자동 분류기 정확도: 82.1% (26/32)로 고신뢰 예측에서 90.5%의 더 높은 정확도 및 상당한 일치(Cohen의 κ = 0.76).
- 당사의 XAI 시스템은 실패 이해 속도가 더 빠르고 근본 원인 정확도가 더 높음(기술적 89%, 비기술적 76%) 대비 기준선.
- 기술 참가자의 근본 원인 정확도는 원시 42%에서 당사 XAI 89%로 향상; 비기술적은 원시 18%에서 당사 XAI 76%로 향상.
- 해결 제안은 당사 XAI에서 더 높은 점수(기술적 4.3/5, 비기술적 3.8/5)로 기준선보다 높게 평가.
- 사용자들이 당사 XAI에 대해 더 높은 신뢰를 보고(기술적 6.1/7, 비기술적 5.6/7).

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.