[논문 리뷰] Evaluating AIGC Detectors on Code Content
이 논문은 ChatGPT가 생성한 코드 관련 콘텐츠에서 여섯 가지 AIGC 탐지기(오픈 소스 3개, 상용 3개)를 경험적으로 평가하고, 이를 자연어 콘텐츠와 비교하며, 인간 연구와 데이터셋 구성을 포함한다.
Artificial Intelligence Generated Content (AIGC) has garnered considerable attention for its impressive performance, with ChatGPT emerging as a leading AIGC model that produces high-quality responses across various applications, including software development and maintenance. Despite its potential, the misuse of ChatGPT poses significant concerns, especially in education and safetycritical domains. Numerous AIGC detectors have been developed and evaluated on natural language data. However, their performance on code-related content generated by ChatGPT remains unexplored. To fill this gap, in this paper, we present the first empirical study on evaluating existing AIGC detectors in the software domain. We created a comprehensive dataset including 492.5K samples comprising code-related content produced by ChatGPT, encompassing popular software activities like Q&A (115K), code summarization (126K), and code generation (226.5K). We evaluated six AIGC detectors, including three commercial and three open-source solutions, assessing their performance on this dataset. Additionally, we conducted a human study to understand human detection capabilities and compare them with the existing AIGC detectors. Our results indicate that AIGC detectors demonstrate lower performance on code-related data compared to natural language data. Fine-tuning can enhance detector performance, especially for content within the same domain; but generalization remains a challenge. The human evaluation reveals that detection by humans is quite challenging.
연구 동기 및 목표
- ChatGPT가 생성한 코드 관련 콘텐츠에 대한 기존 AIGC 탐지기의 효과성 평가.
- 코드 콘텐츠와 자연어 콘텐츠 간의 탐지기 성능 비교.
- 미세 조정이 탐지기 성능과 일반화에 미치는 영향을 탐구.
- 작은 콘텐츠 변형에 대한 탐지기의 강건성 평가.
- 사람이 AI 생성 콘텐츠를 탐지하는 능력을 탐지기와 비교.
제안 방법
- 사람과 ChatGPT가 생성한 쌍으로 CCD(코드 관련 콘텐츠)와 NLCD(자연어 콘텐츠)라는 두 개의 대규모 데이터셋을 구성한다.
- CCD-Test와 NLCD-Test에서 여섯 가지 탐지기(GPT2-Detector, DetectGPT, RoBERTa-QA 세 가지 오픈 소스; GPTZero, Writer, AITextClassifier 세 가지 상용)를 평가한다.
- NLCD-Train 및 CCD-Train에 도메인 관련 하위 집합을 사용하여 RoBERTa-QA를 미세 조정하고 개선 여부를 평가한다.
- 코드 및 텍스트 변형을 적용하고 탐지기를 재평가하여 강건성을 테스트한다.
- 50명의 경험 많은 개발자를 대상으로 온라인 인간 연구를 수행하여 인간 탐지 성능을 평가한다.
- 주요 지표로 AUC를 사용하고, 보조 지표로 FPR 및 FNR를 사용한다.
실험 결과
연구 질문
- RQ1RQ1: 기존 탐지기가 ChatGPT가 생성한 코드 및 자연어 콘텐츠를 탐지하는 데 얼마나 효과적인가?
- RQ2RQ2: 미세 조정이 코드 관련 데이터에서 탐지기 성능을 향상시킬 수 있는가?
- RQ3RQ3: ChatGPT가 생성한 데이터가 약간 수정될 때 탐지기의 강건성은 어떠한가?
- RQ4RQ4: 인간은 탐지기와 비교했을 때 ChatGPT가 생성한 콘텐츠를 얼마나 잘 구분할 수 있는가?
주요 결과
- 탐지기는 코드 관련 데이터에서 자연어 데이터보다 성능이 낮게 나타난다.
- 미세 조정은 탐지기 성능을 향상시키지만 도메인 간 일반화는 여전히 제한적이다.
- 탐지기들 간에 데이터셋과 언어에 따라 AUC, FPR, FNR 간의 다양한 트레이드오프가 존재한다.
- 강건성 테스트에서 변형에 따라 탐지기가 악화되며, 콘텐츠 유형에 따라 일부 탐지기가 다른 것들보다 더 잘 작동한다.
- 사람들 역시 ChatGPT가 생성한 코드 콘텐츠를 탐지하는 데 어려움을 겪으며 탐지기의 어려움을 반영한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.