[논문 리뷰] Fingerprinting AI Coding Agents on GitHub
이 논문은 33,580개의 풀 리퀘스트를 다섯 에이전트에서 분석하여 AI 코딩 에이전트를 식별하는 최초의 실증 연구를 제시합니다. 다중 클래스 에이전트 식별에서 97.2% F1-점수를 달성하고 에이전트 고유의 행동 서명을 드러냅니다.
AI coding agents are reshaping software development through both autonomous and human-mediated pull requests (PRs). When developers use AI agents to generate code under their own accounts, code authorship attribution becomes critical for repository governance, research validity, and understanding modern development practices. We present the first study on fingerprinting AI coding agents, analyzing 33,580 PRs from five major agents (OpenAI Codex, GitHub Copilot, Devin, Cursor, Claude Code) to identify behavioral signatures. With 41 features spanning commit messages, PR structure, and code characteristics, we achieve 97.2% F1-score in multi-class agent identification. We uncover distinct fingerprints: Codex shows unique multiline commit patterns (67.5% feature importance), and Claude Code exhibits distinctive code structure (27.2% importance of conditional statements). These signatures reveal that AI coding tools produce detectable behavioral patterns, suggesting potential for identifying AI contributions in software repositories.
연구 동기 및 목표
- 거버넌스 및 연구 타당성을 위해 AI가 생성하거나 AI가 제출한 코드 기여를 식별할 필요성을 동기를 부여한다.
- PR의 행태 특징을 사용하여 에이전트 저작권자를 식별하는 핑거프린팅 방법을 제안한다.
- 여러 에이전트에 걸쳐 제출 AI 에이전트를 식별하는 능력을 견고한 성능으로 평가한다.
- 정책 집행을 돕고 에이전트 주도 개발 관행을 이해하기 위해 에이전트 특유의 핑거프린트를 특징화한다.
제안 방법
- AIDev 데이터셋의 다섯 AI 코딩 에이전트(OpenAI Codex, GitHub Copilot, Devin, Cursor, Claude Code)에서 PR의 라벨링된 데이터셋을 구성한다.
- PR 메타데이터와 차이에서 커밋 메시지, PR 구조, 코드 변경, 패치 수준 코드, 시간적 패턴에 걸친 41개의 판별 특성을 설계한다.
- 계층적 클러스터링과 R^2 중복성 분석으로 EPV가 충분한 41개의 특징으로 특징 집합을 축소한다.
- 다중 클래스 에이전트 식별을 위해 5-폴드 계층화 교차검증 설정에서 트리 기반 앙상블 분류기(XGBoost 및 Random Forest)를 학습한다.
- 해석 가능한 핑거프린트를 위한 에이전트 특이적 특징 중요도를 추출하기 위해 one-vs-rest 이진 분류기를 사용한다.
- 매크로 평균 지표로 성능을 보고 혼동 행렬과 특징 중요도를 분석한다.
실험 결과
연구 질문
- RQ1RQ1: 어느 AI 코딩 에이전트가 풀 리퀘스트를 제출했는지 얼마나 정확하게 식별할 수 있는가?
- RQ2RQ2: 서로 다른 AI 코딩 에이전트를 구별하는 특징은 무엇인가?
- RQ3전반적인 에이전트 식별 가능성을 평가하고 보편적 핑거프린트 vs. 에이전트 특정 핑거프린트를 검토한다.
주요 결과
| 에이전트 | 샘플 | 정밀도 | 재현율 | F1 | EPV |
|---|---|---|---|---|---|
| OpenAI Codex | 21,793 | 0.99 | 0.99 | 0.99 | 531.5 |
| Copilot | 4,967 | 0.99 | 0.98 | 0.99 | 121.1 |
| Devin | 4,822 | 0.93 | 0.96 | 0.94 | 117.6 |
| Cursor | 1,540 | 0.88 | 0.83 | 0.85 | 37.6 |
| Claude Code | 458 | 0.82 | 0.57 | 0.67 | 11.2 |
| Weighted Avg. | 33,580 | 0.97 | 0.97 | 0.97 | — |
- XGBoost는 다섯 클래스 에이전트 식별에서 97.2% F1-점수를 달성한다(랜덤 포레스트 대비 2.3% 향상).
- 다수 클래스(OpenAI Codex, Copilot, Devin)는 거의 완벽한 정밀도/재현율에 도달한다(≈99%, 93–96%), 반면 Cursor와 Claude Code는 소수 비율로 인해 약하다(Claude Code 재현 57%, 정밀도 82%).
- 전역 특징 중요도는 커밋 메시지 특성에 의해 지배되며(다중 행 커밋 비율 44.7%), 코드 내용 특성은 더 낮게 평가된다(예: 주석, 조건문, 함수).
- 원-대-나머지 분석은 에이전트 특정 핑거프린트를 보여준다: Codex—다중 행 커밋; Copilot—길고 자세한 설명과 높은 변경 집중도; Cursor—글머리 기호와 하이퍼링크; Devin—다중 행 커밋과 분산된 변경; Claude Code—높은 조건문과 주석 밀도(27.2%와 19.8%).
- 이 핑거프린트는 비공개 에이전트 사용 탐지에 기여하며 정책 시행, 데이터셋의 타당성(예: AIDev) 및 에이전트 설계에 시사점을 갖는다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.