[論文レビュー] XAI for Coding Agent Failures: Transforming Raw Execution Traces into Actionable Insights
要約:論文は、生のコードエージェント実行 traces を解釈可能な説明、視覚化、実行可能な修正に変換する構造化 XAI パイプラインを提示し、生の traces や汎用 LLM の説明よりも高い正確性と故障理解の速度を達成します。
Large Language Model (LLM)-based coding agents show promise in automating software development tasks, yet they frequently fail in ways that are difficult for developers to understand and debug. While general-purpose LLMs like GPT can provide ad-hoc explanations of failures, raw execution traces remain challenging to interpret even for experienced developers. We present a systematic explainable AI (XAI) approach that transforms raw agent execution traces into structured, human-interpretable explanations. Our method consists of three key components: (1) a domain-specific failure taxonomy derived from analyzing real agent failures, (2) an automatic annotation system that classifies failures using defined annotation schema, (3) a hybrid explanation generator that produces visual execution flows, natural language explanations, and actionable recommendations. Through a user study with 20 participants (10 technical, 10 non-technical), we demonstrate that our approach enables users to identify failure root causes 2.8 times faster and propose correct fixes with 73% higher accuracy compared to raw execution traces. Importantly, our structured approach outperforms ad-hoc state of the art models explanations by providing consistent, domain-specific insights with integrated visualizations. Our work establishes a framework for systematic agent failure analysis, addressing the critical need for interpretable AI systems in software development workflows
研究の動機と目的
- コードエージェントの故障のドメイン特化型分類法を開発する。
- 構造化スキームを用いた故障の自動注釈化を行う。
- 視覚的、テキスト的、実行可能な出力を組み合わせたハイブリッドな説明システムを構築する。
- 構造化 XAI が生の traces および汎用的な説明よりも優れているかを経験的に検証する。
提案手法
- varied な実験条件下での実世界のコードエージェント故障32件から故障 taxonomy を導出する。
- 機能呼び出しを用いた GPT-4 による自動注釈システムを作成し、構造化出力と信頼度スコアを提供する。
- 実行フローの視覚化、自然言語説明、反事実/推奨分析を生成する統合 XAI パイプラインを開発する。
- 生の traces および汎用目的 LLM の説明と比較するユーザ調査(N=20)を通じてアプローチを評価する。

実験結果
リサーチクエスチョン
- RQ1HumanEval タスクを解くコードエージェントにどのような故障パターンが生じるか?
- RQ2自動注釈付けはドメイン特化型分類法へ故障を正確に分類できるか?
- RQ3構造化 XAI の説明は生の traces および汎用 LLM の説明と比較して理解度、根本原因特定の正確性、修正の品質を向上させるか?
- RQ4視覚化、説明、推奨は技術的・非技術的ユーザーにどのような影響を及ぼすか?
主な発見
| Group | Metric | Raw | General Purpose LLMs | Our XAI |
|---|---|---|---|---|
| Technical | Time to understand (min) | 8.4±2.1 | 5.2±1.3 | 3.0±0.8 |
| Technical | Root cause accuracy (%) | 42±15 | 68±12 | 89±8 |
| Technical | Fix quality (1-5) | 2.6±0.8 | 3.4±0.6 | 4.3±0.5 |
| Technical | Confidence (1-7) | 3.2±1.1 | 4.8±0.9 | 6.1±0.7 |
| Non-Technical | Time to understand (min) | 12.8±3.2 | 7.1±1.8 | 4.2±1.1 |
| Non-Technical | Root cause accuracy (%) | 18±12 | 52±18 | 76±11 |
| Non-Technical | Fix quality (1-5) | 1.4±0.6 | 2.8±0.7 | 3.8±0.6 |
| Non-Technical | Confidence (1-7) | 2.1±0.9 | 4.2±1.1 | 5.6±0.8 |
- 反復的改良故障が支配的であり(32件中56%)、進展がない状態で反復制限を超えるパターンが最も一般的。
- 自動分類器の精度:82.1%(26/32)、高信頼度予測では90.5%、 Cohen's κ = 0.76 の substantial agreement。
- 我々の XAI システムは、基準と比べて故障理解の速度を向上させ(2.8倍)、根本原因の正確性も高い(技術系89%、非技術系76%)。
- 技術系参加者の根本原因正確度は生データの42%からOur XAIの89%へ、非技術系も18%から76%へ改善。
- 修正提案はOur XAI がベースラインより高く評価(技術系4.3/5、非技術系3.8/5)。
- ユーザーはOur XAI に対して自信度が高いと回答(技術系6.1/7、非技術系5.6/7)。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。