[논문 리뷰] Detecting LLM-Generated Text in Computing Education: A Comparative Study for ChatGPT Cases
이 논문은 공개 LLM 생성 텍스트 탐지기를 여덟 개를 사전 ChatGPT 학생 제출물과 ChatGPT 생성 제출물로 비교하여 정확도, 거짓 양성, 회복력을 평가합니다. CopyLeaks를 가장 정확하다고, GPTKit을 거짓 양성을 피하는 데 최적이라고, GLTR를 가장 회복력이 강하다고 식별합니다.
Due to the recent improvements and wide availability of Large Language Models (LLMs), they have posed a serious threat to academic integrity in education. Modern LLM-generated text detectors attempt to combat the problem by offering educators with services to assess whether some text is LLM-generated. In this work, we have collected 124 submissions from computer science students before the creation of ChatGPT. We then generated 40 ChatGPT submissions. We used this data to evaluate eight publicly-available LLM-generated text detectors through the measures of accuracy, false positives, and resilience. The purpose of this work is to inform the community of what LLM-generated text detectors work and which do not, but also to provide insights for educators to better maintain academic integrity in their courses. Our results find that CopyLeaks is the most accurate LLM-generated text detector, GPTKit is the best LLM-generated text detector to reduce false positives, and GLTR is the most resilient LLM-generated text detector. We also express concerns over 52 false positives (of 114 human written submissions) generated by GPTZero. Finally, we note that all LLM-generated text detectors are less accurate with code, other languages (aside from English), and after the use of paraphrasing tools (like QuillBot). Modern detectors are still in need of improvements so that they can offer a full-proof solution to help maintain academic integrity. Further, their usability can be improved by facilitating a smooth API integration, providing clear documentation of their features and the understandability of their model(s), and supporting more commonly used languages.
연구 동기 및 목표
- 컴퓨팅 교육 콘텐츠에 대한 공개적으로 이용 가능한 LLM 생성 텍스트 탐지기의 효과를 평가한다.
- 패러프레이싱 도구 이전과 이후의 텍스트를 포함한 실제 학생 제출물과 ChatGPT가 생성한 텍스트에 대해 탐지기를 평가한다.
- 탐지기의 사용성, API 통합, 언어 지원에 관한 실용적인 교육자 지침을 제공한다.
제안 방법
- 2016-2018년 데이터베이스, 네트워킹, 논문 과정에서 164개 학생 제출물(124개 인간 작성, 30개 ChatGPT 생성, 10개 ChatGPT 생성+QuillBot)을 수집했다.
- 비교를 위해 40개의 ChatGPT 제출물을 생성했다.
- 2023년 1-2월에 공개된 여덟 가지 탐지기를 식별하고 수집된 데이터에 대해 시험했다.
- 정확도, 거짓 양성 및 회복력(QuillBot 패러프레이징과 함께)을 측정했다.
- 분석을 위해 탐지기 출력값을 비교 가능한 확률 또는 범주로 변환했다.
- 임계값 기반 및 평균 기반 정확도 지표를 사용해 탐지기를 비교하고, 인간 데이터와 ChatGPT 데이터를 비교하기 위한 t-검정을 수행했다.
실험 결과
연구 질문
- RQ1공개적으로 이용 가능한 LLM 생성 텍스트 탐지기가 컴퓨팅 교육 텍스트에서 얼마나 효과적인가?
- RQ2탐지기는 인간 작성 내용과 ChatGPT 생성 콘텐츠에서 유사한 성능을 보이는가?
- RQ3QuillBot와 같은 패러프레이징 도구에 대해 탐지기는 얼마나 강건한가?
주요 결과
| 탐지기 | 인간 데이터(정확도) | ChatGPT 데이터(정확도) |
|---|---|---|
| CopyLeaks | 99.12% | 95.00% |
| GPT2 Detector | 98.25% | 95.00% |
| CheckForAI | 98.25% | 95.00% |
| GLTR | 82.46% | 95.00% |
| GPTKit | 100.00% | 75.00% |
| OriginalityAI | 93.86% | 70.00% |
| AI Text Classifier | 94.74% | 60.00% |
| GPTZero | 54.39% | 45.00% |
- CopyLeaks는 인간 데이터에서 최고의 정확도(99.12%), ChatGPT 데이터에서의 정확도(95.00%)를 달성했다.
- GPT2 Detector와 CheckForAI는 임계값을 사용할 때 인간 데이터에서 각각 98.25%, ChatGPT 데이터에서 95.00%의 정확도를 보였다.
- GLTR은 패러프레이징에 대해 강한 회복력을 보여 인체 데이터에서 82.46%, ChatGPT 데이터에서 95.00%의 정확도를 나타냈으나 가중 평균에서 전반적으로 다소 약했다.
- GPTKit은 인간 데이터에서 거짓 양성이 전혀 없었으나 다른 경우에는 일부 거짓 양성을 보였다.
- GPTZero는 임계값을 사용할 때 인간 데이터에서 54.39%, ChatGPT 데이터에서 45.00%로 최저 성능을 보였다.
- 스페인어 데이터 전체에서 결과가 다르게 나타났으며 CopyLeaks와 GPT2 Detector와 같은 일부 탐지기가 영어 결과와 다르게 작동했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.