QUICK REVIEW

[논문 리뷰] XAI for Coding Agent Failures: Transforming Raw Execution Traces into Actionable Insights

Arun Joshi|arXiv (Cornell University)|2026. 03. 06.

Explainable Artificial Intelligence (XAI)인용 수 0

한 줄 요약

요약: 이 논문은 원시 코딩 에이전트 실행 추적을 해석 가능한 설명, 시각화 및 실행 가능한 수정으로 변환하는 구조화된 XAI 파이프라인을 제시하며, 원시 추적이나 일반 LLM 설명보다 정확도와 실패 이해 속도가 더 빠르다.

ABSTRACT

Large Language Model (LLM)-based coding agents show promise in automating software development tasks, yet they frequently fail in ways that are difficult for developers to understand and debug. While general-purpose LLMs like GPT can provide ad-hoc explanations of failures, raw execution traces remain challenging to interpret even for experienced developers. We present a systematic explainable AI (XAI) approach that transforms raw agent execution traces into structured, human-interpretable explanations. Our method consists of three key components: (1) a domain-specific failure taxonomy derived from analyzing real agent failures, (2) an automatic annotation system that classifies failures using defined annotation schema, (3) a hybrid explanation generator that produces visual execution flows, natural language explanations, and actionable recommendations. Through a user study with 20 participants (10 technical, 10 non-technical), we demonstrate that our approach enables users to identify failure root causes 2.8 times faster and propose correct fixes with 73% higher accuracy compared to raw execution traces. Importantly, our structured approach outperforms ad-hoc state of the art models explanations by providing consistent, domain-specific insights with integrated visualizations. Our work establishes a framework for systematic agent failure analysis, addressing the critical need for interpretable AI systems in software development workflows

연구 동기 및 목표

도메인 특화 코드 에이전트 실패의 분류 체계( taxonomy) 개발.
구조화된 스킴을 사용한 실패 주석 자동화.
시각적, 텍스트, 실행 가능 출력물을 갖춘 하이브리드 설명 시스템 구축.
구조화된 XAI가 원시 추적 및 일반 설명보다 성능이 우수한지 경험적으로 검증.

제안 방법

다양한 실험 조건에서 32건의 실제 코딩 에이전트 실패로부터 실패 분류 체계 도출.
구조화된 출력과 신뢰도 점수를 위한 기능 호출을 포함한 GPT-4를 이용한 자동 주석 시스템 생성.
실행 흐름 시각화, 자연어 설명 및 역사적/권고 분석을 생성하는 통합 XAI 파이프라인 개발.
원시 추적 및 일반 목적 LLM 설명과 비교하는 사용자 연구(N=20)로 접근법 평가.

Figure 1: System architecture showing the flow from raw trace to final explanation report. The system consists of three main components: automatic annotation, explanation generation, and report synthesis.

실험 결과

연구 질문

RQ1HumanEval 작업을 해결하는 코딩 에이전트에서 어떤 실패 패턴이 나타나는가?
RQ2자동 주석이 도메인 특화 분류 체계로 실패를 정확하게 분류할 수 있는가?
RQ3구조화된 XAI 설명이 원시 추적 및 일반 LLM 설명과 비교하여 이해도, 근본 원인 식별의 정확도, 수정 품질을 향상시키는가?
RQ4시각화, 설명 및 권고가 기술적/비기술적 사용자에게 어떤 영향을 주는가?

주요 결과

그룹	지표	원시	일반 목적 LLMs	당사 XAI
기술적	이해 시간(분)	8.4±2.1	5.2±1.3	3.0±0.8
기술적	근본 원인 정확도(%)	42±15	68±12	89±8
기술적	해결 품질(1-5)	2.6±0.8	3.4±0.6	4.3±0.5
기술적	신뢰도(1-7)	3.2±1.1	4.8±0.9	6.1±0.7
비기술적	이해 시간(분)	12.8±3.2	7.1±1.8	4.2±1.1
비기술적	근본 원인 정확도(%)	18±12	52±18	76±11
비기술적	해결 품질(1-5)	1.4±0.6	2.8±0.7	3.8±0.6
비기술적	신뢰도(1-7)	2.1±0.9	4.2±1.1	5.6±0.8

반복적 정제 실패가 지배적(32건 중 56%); 진행 없이 반복 한계 초과가 가장 일반적인 패턴.
자동 분류기 정확도: 82.1% (26/32)로 고신뢰 예측에서 90.5%의 더 높은 정확도 및 상당한 일치(Cohen의 κ = 0.76).
당사의 XAI 시스템은 실패 이해 속도가 더 빠르고 근본 원인 정확도가 더 높음(기술적 89%, 비기술적 76%) 대비 기준선.
기술 참가자의 근본 원인 정확도는 원시 42%에서 당사 XAI 89%로 향상; 비기술적은 원시 18%에서 당사 XAI 76%로 향상.
해결 제안은 당사 XAI에서 더 높은 점수(기술적 4.3/5, 비기술적 3.8/5)로 기준선보다 높게 평가.
사용자들이 당사 XAI에 대해 더 높은 신뢰를 보고(기술적 6.1/7, 비기술적 5.6/7).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.