[논문 리뷰] ArguGPT: evaluating, understanding and identifying argumentative essays generated by GPT models
ArguGPT는 4,038개의 GPT-생성 에세이와 4,115개의 인간이 작성한 주장 에세이로 구성된 크고 균형 잡힌 말뭉치를 제시하고, 언어적 차이점을 분석하며 RoBERTa와 GPTZero를 포함한 탐지기를 평가합니다. 분포 내 탐지 성능은 강하지만 분포 외 일반화는 제한적입니다.
AI generated content (AIGC) presents considerable challenge to educators around the world. Instructors need to be able to detect such text generated by large language models, either with the naked eye or with the help of some tools. There is also growing need to understand the lexical, syntactic and stylistic features of AIGC. To address these challenges in English language teaching, we first present ArguGPT, a balanced corpus of 4,038 argumentative essays generated by 7 GPT models in response to essay prompts from three sources: (1) in-class or homework exercises, (2) TOEFL and (3) GRE writing tasks. Machine-generated texts are paired with roughly equal number of human-written essays with three score levels matched in essay prompts. We then hire English instructors to distinguish machine essays from human ones. Results show that when first exposed to machine-generated essays, the instructors only have an accuracy of 61% in detecting them. But the number rises to 67% after one round of minimal self-training. Next, we perform linguistic analyses of these essays, which show that machines produce sentences with more complex syntactic structures while human essays tend to be lexically more complex. Finally, we test existing AIGC detectors and build our own detectors using SVMs and RoBERTa. Results suggest that a RoBERTa fine-tuned with the training set of ArguGPT achieves above 90% accuracy in both essay- and sentence-level classification. To the best of our knowledge, this is the first comprehensive analysis of argumentative essays produced by generative large language models. Machine-authored essays in ArguGPT and our models will be made publicly available at https://github.com/huhailinguist/ArguGPT
연구 동기 및 목표
- GPT 모델이 작성한 AI 생성 주장 에세이를 식별하는 교사를 위한 기준선을 설정한다.
- 구문과 어휘에 초점을 맞춰 기계 생성과 인간 작성 에세이 간의 언어적 차이를 특성화한다.
- 기존의 AI 생성 콘텐츠 탐지기를 평가하고 ML 모델을 사용하여 강력한 탐지기를 개발한다.
제안 방법
- WECCL, TOEFL11, GRE의 프롬프트에 응답한 4,038개의 기계 생성 에세이와 4,115개의 인간이 작성한 에세이로 균형 잡힌 ArguGPT 말뭉치를 구성한다.
- 프롬프트 튜닝 및 생성 후 필터링으로 짧고 반복적이거나 중첩된 텍스트를 제거하여 일곱 개의 GPT 모델을 사용해 기계 에세이를 생성한다.
- 일관성을 위해 텍스트를 전처리하고 기계 에세이와 인간 에세이를 구분하는 인간 평가자의 능력을 평가한다.
- 기계 에세이와 인간 에세이를 비교하기 위해 31개의 구문적 및 어휘적 측정을 분석한다.
- 분포 내 데이터에서 탐지기(SVM 및 RoBERTa)를 학습하고 평가하며, 분포 외 데이터에서 일반화를 테스트한다.
- 탐지기의 전이 학습을 평가하기 위해 기계 및 인간 에세이를 포함하는 분포 외 데이터 세트를 생성하고 평가한다.
실험 결과
연구 질문
- RQ1ESL 교사가 GPT가 생성한 주장 에세이를 인간이 작성한 에세이와 구별할 수 있는가?
- RQ2구문과 어휘에서 기계 생성 에세이와 인간 작성 에세이를 구분하는 언어적 특징은 무엇인가?
- RQ3교차 모델 일반화를 포함하여 머신러닝 분류기가 기계 생성 에세이와 인간 작성 에세이를 신뢰할 수 있게 구분할 수 있는가?
주요 결과
- 교사들은 1루에서 기계 vs 인간 에세이를 61.6%의 정확도로 정확히 식별했고, 최소한의 훈련 후에는 67.7%에 도달했다.
- 언어학적으로, GPT 에세이는 구문은 더 복잡하지만 어휘적으로는 인간 에세이보다 덜 복잡하다.
- ArguGPT에서 미세조정된 RoBERTa를 기반으로 한 탐지기는 분포 내 데이터에서 에세이 수준과 문장 수준에서 각각 90% 이상 정확도를 달성한다(에세이 수준 99%, 문장 수준 93%).
- RoBERTa는 보지 못한 모델(예: claude-instant)에 일반화되지만, GPTZero와 같은 일반 판매 탐지기는 분포 외 데이터로 일반화하는 데 실패한다.
- ArguGPT와 그 탐지기는 공개적으로 이용 가능하다(GitHub 및 HuggingFace 공간).
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.