[논문 리뷰] GPT-Sentinel: Distinguishing Human and ChatGPT Generated Content
GPT-Sentinel은 OpenGPTText 및 두 분류기(RoBERTa-Sentinel 및 T5-Sentinel)를 제시하여 테스트 데이터에서 97% 이상 정확도로 ChatGPT가 생성한 텍스트와 인간이 작성한 텍스트를 구분하고 해석 가능성 분석을 제공합니다.
This paper presents a novel approach for detecting ChatGPT-generated vs. human-written text using language models. To this end, we first collected and released a pre-processed dataset named OpenGPTText, which consists of rephrased content generated using ChatGPT. We then designed, implemented, and trained two different models for text classification, using Robustly Optimized BERT Pretraining Approach (RoBERTa) and Text-to-Text Transfer Transformer (T5), respectively. Our models achieved remarkable results, with an accuracy of over 97% on the test dataset, as evaluated through various metrics. Furthermore, we conducted an interpretability study to showcase our model's ability to extract and differentiate key features between human-written and ChatGPT-generated text. Our findings provide important insights into the effective use of language models to detect generated text.
연구 동기 및 목표
- OpenWebText에서 ChatGPT의 의역 텍스트로 구성된 데이터셋(OpenGPTText)을 검출 벤치마크로 삼기 위한 데이터셋 생성.
- 두 가지 미세조정된 분류기(RoBERTa-Sentinel 및 T5-Sentinel)를 개발 및 비교하여 인간 텍스트 vs ChatGPT 텍스트의 이진 분류.
- 다양한 메트릭과 데이터셋에서 성능을 평가하고 의사결정의 모델 해석 가능성을 조사.
제안 방법
- RoBERTa-센티넬을 위한 고정된 RoBERTa 백본에 상단에 MLP 분류기를 추가로 미세조정.
- 작업을 시퀀스-투-시퀀스 분류 문제로 다루도록 T5를 미세조정(출력은 'positive' 또는 'negative').
- 학습 중 메모리 관리를 위해 512-토큰 잘라쓰기와 패딩 및 그래디언트 누적 사용.
- OpenGPTText-Final, OpenGPTText, GPT2-Output 데이터셋에서 F1, ROC/DET, AUC 및 모델 자신감 점수로 평가.
- 숨겨진 상태에 대한 PCA 및 통합 그래디언트를 통해 토큰 기여를 식별하는 해석 가능성 분석 수행.
실험 결과
연구 질문
- RQ1미세조정된 RoBERTa와 T5 모델이 OpenGPTText 파생 데이터에서 ChatGPT가 생성한 텍스트와 인간이 작성한 텍스트를 신뢰ably 구분할 수 있는가?
- RQ2정제된 데이터셋과 원본 데이터셋 간, 그리고 GPT-2/GPT-3.5 스타일 출력 간에 모델 성능이 어떻게 이전되는가?
- RQ3탐지기의 예측을 주도하는 특징이나 토큰은 무엇이며, 모델의 결정은 얼마나 해석 가능한가?
주요 결과
| 모델 | OpenGPTText-Final F1 | OpenGPTText-Final FPR | OpenGPTText-FNR | OpenGPTText F1 | OpenGPTText FPR | OpenGPTText FNR | GPT2-Output F1 | GPT2-Output FPR | GPT2-Output FNR |
|---|---|---|---|---|---|---|---|---|---|
| T5-Sentinel | 0.98 | 2.8% | 1.3% | 0.98 | 3.5% | 1.3% | 0.06 | 5.9% | 96.7% |
| RoBERTa-Sentinel | 0.94 | 9.0% | 3.2% | 0.89 | 21.6% | 1.3% | 0.16 | 17.2% | 89.6% |
| ZeroGPT | 0.43 | 26.3% | 65.0% | 0.40 | 16.5% | 71.3% | 0.14 | 23.4% | 90.5% |
| OpenAI-Detector | 0.32 | 4.9% | 79.8% | 0.26 | 1.6% | 85.2% | 0.66 | 13.6% | 44.0% |
| GPT2-Detector | 0.23 | 2.8% | 86.8% | 0.22 | 4.1% | 87.2% | 0.93 | 6.4% | 7.4% |
- T5-Sentinel은 OpenGPTText-Final 및 OpenGPTText에서 거의 완벽에 가까운 성능(F1 약 0.98, 매우 낮은 FPR/FNR) 을 달성하는 반면 GPT2-Output은 대부분의 베이스라인에 대해 여전히 도전적입니다.
- RoBERTa-Sentinel 또한 OpenGPTText-Final/OpenGPTText에서 잘 작동하지만 GPT2-Output에서는 T5-Sentinel에 비해 더 높은 FNR을 보입니다.
- 데이터셋 전반에 걸쳐 T5-Sentinel의 AUC가 가장 높고(OpenGPTText-Final에서 0.993), RoBERTa-Sentinel은 0.986(OpenGPTText-Final)입니다.
- ZeroGPT, OpenAI-Detector, GPT2-Detector 베이스라인은 일반적으로 OpenGPTText 기반 작업에서 제안된 Sentinels보다 성능이 떨어집니다.
- OpenGPTText 데이터에서 T5-Sentinel이 RoBERTa-Sentinel보다 더 신뢰할 수 있는 예측을 제공하는 경향이 있는 것으로 보이는 신뢰도 점수.
- PCA 및 Integrated Gradients를 통해 GPT-유사 특성과 일치하는 모델이 식별한 클러스터 및 토큰 수준 기여가 드러납니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.