[論文レビュー] Fingerprinting AI Coding Agents on GitHub
この論文は、5つのエージェントにわたる33,580件のプルリクエストを分析してAIコード作成エージェントを指紋化する最初の実証研究を提示し、多クラスエージェント識別で97.2%のF1スコアを達成し、エージェント特有の行動シグネチャを明らかにします。
AI coding agents are reshaping software development through both autonomous and human-mediated pull requests (PRs). When developers use AI agents to generate code under their own accounts, code authorship attribution becomes critical for repository governance, research validity, and understanding modern development practices. We present the first study on fingerprinting AI coding agents, analyzing 33,580 PRs from five major agents (OpenAI Codex, GitHub Copilot, Devin, Cursor, Claude Code) to identify behavioral signatures. With 41 features spanning commit messages, PR structure, and code characteristics, we achieve 97.2% F1-score in multi-class agent identification. We uncover distinct fingerprints: Codex shows unique multiline commit patterns (67.5% feature importance), and Claude Code exhibits distinctive code structure (27.2% importance of conditional statements). These signatures reveal that AI coding tools produce detectable behavioral patterns, suggesting potential for identifying AI contributions in software repositories.
研究の動機と目的
- ガバナンスと研究の妥当性のために、AI生成またはAI提出コードの寄稿を識別する必要性を動機づける。
- PRからの行動特徴を用いた指紋付けアプローチを提案し、エージェント著者を帰属させる。
- 複数のエージェントにわたる提出AIエージェントを堅牢な性能で識別できる能力を評価する。
- エージェント特有の指紋を特徴づけ、方針執行とエージェンド開発実践の理解を支援する。
提案手法
- AIDevデータセットの5つのAIコード生成エージェント(OpenAI Codex、GitHub Copilot、Devin、Cursor、Claude Code)からのPRのラベル付きデータセットを構築する。
- PRメタデータと差分から、コミットメッセージ、PR構造、コード変更、パッチレベルのコード、時系列パターンの計41個の識別的特徴を設計する。
- 階層的クラスタリングとR^2冗長分析により、イベント対変数(EPV)を満たす41特徴に特徴量集合を削減する。
- 多クラスエージェント識別のため、木ベースのアンサンブル分類器(XGBoostとRandom Forest)を5-fold層別交差検証で学習する。
- 解釈可能な指紋を抽出するため、エージェント特有の特徴重要度を一対他(one-vs-rest)二値分類器で抽出する。
- マクロ平均指標で性能を報告し、混同行列と特徴重要度を分析する。
実験結果
リサーチクエスチョン
- RQ1RQ1: どれだけ正確にどのAIコード生成エージェントがプルリクエストを提出したかを識別できるか?
- RQ2RQ2: 各エージェントを互いに区別する特徴は何か?
- RQ3全体的なエージェント可 identifiabilityを評価し、普遍的な指紋とエージェント特有の指紋を検討する。
主な発見
| Agent | Samples | Precision | Recall | F1 | EPV |
|---|---|---|---|---|---|
| OpenAI Codex | 21,793 | 0.99 | 0.99 | 0.99 | 531.5 |
| Copilot | 4,967 | 0.99 | 0.98 | 0.99 | 121.1 |
| Devin | 4,822 | 0.93 | 0.96 | 0.94 | 117.6 |
| Cursor | 1,540 | 0.88 | 0.83 | 0.85 | 37.6 |
| Claude Code | 458 | 0.82 | 0.57 | 0.67 | 11.2 |
| Weighted Avg. | 33,580 | 0.97 | 0.97 | 0.97 | — |
- XGBoostは5クラスのエージェント識別で97.2%のF1スコアを達成(Random Forestより2.3%高い)。
- 大多数クラス(OpenAI Codex、Copilot、Devin)はほぼ完璧に近い精度/再現率を達成(≈99%、93–96%)、CursorとClaude Codeはマイノリティのため精度が低い(Claude Code再現率57%、精度82%)。
- グローバルな特徴重要度はコミットメッセージ特性(多行コミット割合44.7%)が支配的で、コード内容特徴は低くランク付けされる(例:コメント、条件分岐、関数)。
- One-vs-rest分析によりエージェント特有の指紋が明らかになる:Codex—多行コミット;Copilot—長い説明と高い変更集中度;Cursor—箇条書きとハイパーリンク;Devin—多行コミットと分散変更;Claude Code—高い条件分岐とコメント密度(27.2%と19.8%)。
- 指紋は未開示のエージェント使用の検出を可能にし、ポリシー執行、データセットの有効性(例:AIDev)、エージェント設計に影響を与える。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。