[論文レビュー] Engineering Pitfalls in AI Coding Tools: An Empirical Study of Bugs in Claude Code, Codex, and Gemini CLI
この研究は Claude Code、Codex、Gemini CLI の3,8千件以上のバグレポートを分析し、6層のAIコーディングツールアーキテクチャ全体にわたるバグのタイプ、根本原因、症状、バグの場所を特徴づける。
The rapid integration of Large Language Models (LLMs) into software development workflows has given rise to a new class of AI-assisted coding tools, such as Claude-Code, Codex, and Gemini CLIs. While promising significant productivity gains, the engineering process of building these tools, which sit at the complex intersection of traditional software engineering, AI system design, and human-computer interaction, is fraught with unique and poorly understood challenges. This paper presents the first empirical study of engineering pitfalls in building such tools, on a systematic, manual analysis of over 3.8K publicly reported bugs in the open-source repositories of three AI-assisted coding tools (i.e., Claude-Code, Codex, and Gemini CLIs) on GitHub. Specifically, we employ an open-coding methodology to manually examine the issue description, associated user discussions, and developer responses. Through this process, we categorize each bug along multiple dimensions, including bug type, bug location, root cause, and observed symptoms. This fine-grained annotation enables us to characterize common failure patterns and identify recurring engineering challenges. Our results show that more than 67% of the bugs in these tools are related to functionality. In terms of root causes, 36.9% of the bugs stem from API, integration, or configuration errors. Consequently, the most commonly observed symptoms reported by users are API errors (18.3%), terminal problems (14%), and command failures (12.7%). These bugs predominantly affect the tool invocation (37.2%) and command execution (24.7%) stages of the system workflow. Collectively, our findings provide a critical roadmap for developers seeking to design the next generation of reliable and robust AI coding assistants.
研究の動機と目的
- AIコーディングツールの欠陥像を Claude Code、Codex、Gemini CLI の実世界バグを分析して特徴づける。
- バグのタイプ、根本原因、症状、バグ場所の4次元分類法を開発する。
- バグカテゴリーの有病率を定量化し、AIコーディングツール開発における共通の技術的課題を特定する。
- AIコーディングツールの信頼性と使いやすさを改善するための実用的な設計/テストの示唆を提供する。
提案手法
- Claude Code、Codex、Gemini CLI の GitHub イシュートラッカーからクローズ済みバグレポートを収集する。
- 手動で検証、デデuplicate、データセットを作成する(対象ツール3つ; 2,343 + 1,192 + 329 の studied bugs)。
- オープンカードソーティングを適用して4次元の分類法を開発する(バグタイプ、根本原因、症状、バグ位置)。
- 確立した分類法を用いて残りのイシューにラベルを付け、反復的に精練する。
- ツール別および全体の分布を計算し、レーティング間の一致を分析する(Cohen’s κ = 0.82)。

実験結果
リサーチクエスチョン
- RQ1AIコーディングツールにはどんなバグタイプが存在するか?
- RQ2これらのバグの根本原因は何か?
- RQ3これらのバグはどんな症状を示すか?
- RQ4バグは主にどのアーキテクチャ層に影響を与えるか?
主な発見
| Bug Type | Claude Code | Gemini | Codex CLI | Total | Rate (%) |
|---|---|---|---|---|---|
| Functional Bugs | 1567 | 225 | 795 | 2587 | 67.0 |
| Usability & UI Bugs | 422 | 48 | 220 | 690 | 17.9 |
| Compatibility Bugs | 147 | 30 | 117 | 294 | 7.6 |
| Performance Bugs | 170 | 19 | 38 | 227 | 5.9 |
| Security Bugs | 37 | 7 | 22 | 66 | 1.7 |
| Total | 2343 | 329 | 1192 | 3864 | 100.0 |
- 機能的バグは3ツール全体のバグの67%を占める。
- API/統合と設定/準備が主要な根本原因で、全バグの21.4%と15.9%をそれぞれ占める。
- 最も一般的な症状はAPIエラー(18.3%)、端末の問題(14%)、コマンド失敗(12.7%)。
- バグは主にツールの呼び出し(37.6%)とコマンド実行(25%)に影響を与える。
- 使いやすさ/UIのバグが17.9%、互換性のバグが7.6%、セキュリティのバグが1.7%である。
- ラベリングのレーティング間の一致は高く(Cohen’s κ = 0.82)。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。