[논문 리뷰] RADAR: Robust AI-Text Detection via Adversarial Learning
RADAR는 적대적 프레이저와 감지기를 공동으로 학습하여 여러 LLM 및 데이터세트에서 패러프레이징에 강인한 AI-텍스트 감지기를 만들어낸다.
Recent advances in large language models (LLMs) and the intensifying popularity of ChatGPT-like applications have blurred the boundary of high-quality text generation between humans and machines. However, in addition to the anticipated revolutionary changes to our technology and society, the difficulty of distinguishing LLM-generated texts (AI-text) from human-generated texts poses new challenges of misuse and fairness, such as fake content generation, plagiarism, and false accusations of innocent writers. While existing works show that current AI-text detectors are not robust to LLM-based paraphrasing, this paper aims to bridge this gap by proposing a new framework called RADAR, which jointly trains a robust AI-text detector via adversarial learning. RADAR is based on adversarial training of a paraphraser and a detector. The paraphraser's goal is to generate realistic content to evade AI-text detection. RADAR uses the feedback from the detector to update the paraphraser, and vice versa. Evaluated with 8 different LLMs (Pythia, Dolly 2.0, Palmyra, Camel, GPT-J, Dolly 1.0, LLaMA, and Vicuna) across 4 datasets, experimental results show that RADAR significantly outperforms existing AI-text detection methods, especially when paraphrasing is in place. We also identify the strong transferability of RADAR from instruction-tuned LLMs to other LLMs, and evaluate the improved capability of RADAR via GPT-3.5-Turbo.
연구 동기 및 목표
- 강화된 패러프레이즈된 기계 텍스트에 직면한 AI-텍스트 탐지의 강건성 제고.
- 적대적 학습을 통해 프레이저와 감지기를 함께 학습하는 RADAR를 제안.
- 다양한 LLM 및 데이터셋 전반에서 RADAR의 강건성, 전달성, 성능을 입증.
- 적대적 학습을 통한 감지기 전달성 및 프레이저 품질 향상 탐구
제안 방법
- 인간 텍스트 데이터를 이용해 대상 고정 LLM으로 AI-텍스트를 생성한다.
- PPO에 엔트로피 페널티를 추가한 방식으로 AI-텍스트를 재작성하여 탐지를 회피하도록 프레이저 G_sigma를 학습한다.
- 리샤프 로지스틱 손실(reweighted logistic loss)을 사용하여 샘플 불균형을 처리하면서 인간 텍스트와 AI-텍스트(패러프레이즈 출력 포함)를 구분하도록 감지기 D_phi를 학습한다.
- 검증 세트의 AUROC가 안정될 때까지 프레이저와 감지기를 PPO 보상 및 로지스틱 손실로 반복적으로 업데이트한다.
- 4개 데이터세트와 8개의 LLM에서 감지기 성능을 평가하며, 보지 못한 프레이저(GPT-3.5-Turbo 포함)도 포함한다.
- 패러프레이징 없이와 패러프레이징 성능 사이의 균형을 맞추기 위한 균형 하이퍼파라미터 lambda 조정 선택 가능
실험 결과
연구 질문
- RQ1적대적으로 학습된 프레이저가 AI-텍스트 탐지 가능성을 붕괴시킬 수 있으며, 감지기가 이러한 프레이레이즈에 저항하도록 학습될 수 있는가?
- RQ2RADAR가 다양한 LLM 및 데이터세트에서 어떻게 성능을 보이고, 감지기가 보지 못한 모델로 얼마나 전달될 수 있는가?
- RQ3적대적 학습이 패러프레이징에 대한 강건성을 향상시키되 비perturbed 탐지 성능을 지나치게 희생시키지 않는가?
- RQ4지시 튜닝이 LLM 간 감지기 전달성에 미치는 영향은?
- RQ5학습 중 보지 못한 프레이저에 대해서도 학습된 감지기가 일반화될 수 있는가?
주요 결과
| 평가 스키마 | Xsum | SQuAD | WP | TOFEL | 평균 |
|---|---|---|---|---|---|
| w/o Paraphraser - log p | 0.882 | 0.868 | 0.967 | 0.832 | 0.887 |
| w/o Paraphraser - rank | 0.722 | 0.752 | 0.814 | 0.731 | 0.755 |
| w/o Paraphraser - log rank | 0.902 | 0.893 | 0.975 | 0.847 | 0.904 |
| w/o Paraphraser - entropy | 0.536 | 0.521 | 0.296 | 0.534 | 0.472 |
| w/o Paraphraser - DetectGPT | 0.874 | 0.790 | 0.883 | 0.919 | 0.867 |
| w/o Paraphraser - OpenAI (RoBERTa) | 0.953 | 0.914 | 0.924 | 0.810 | 0.900 |
| w/o Paraphraser - RADAR | 0.934 | 0.825 | 0.847 | 0.820 | 0.856 |
| RADAR-Seen Paraphraser - log p | 0.230 | 0.156 | 0.275 | 0.130 | 0.198 |
| RADAR-Seen Paraphraser - rank | 0.334 | 0.282 | 0.357 | 0.163 | 0.284 |
| RADAR-Seen Paraphraser - log rank | 0.245 | 0.175 | 0.281 | 0.134 | 0.209 |
| RADAR-Seen Paraphraser - entropy | 0.796 | 0.845 | 0.763 | 0.876 | 0.820 |
| RADAR-Seen Paraphraser - DetectGPT | 0.191 | 0.105 | 0.117 | 0.177 | 0.159 |
| RADAR-Seen Paraphraser - OpenAI (RoBERTa) | 0.821 | 0.842 | 0.892 | 0.670 | 0.806 |
| RADAR-Seen Paraphraser - RADAR | 0.920 | 0.927 | 0.908 | 0.932 | 0.922 |
| RADAR-Unseen Paraphraser - log p | 0.266 | 0.343 | 0.641 | 0.438 | 0.422 |
| RADAR-Unseen Paraphraser - rank | 0.433 | 0.436 | 0.632 | 0.342 | 0.461 |
| RADAR-Unseen Paraphraser - log rank | 0.282 | 0.371 | 0.632 | 0.421 | 0.426 |
| RADAR-Unseen Paraphraser - entropy | 0.779 | 0.710 | 0.499 | 0.618 | 0.651 |
| RADAR-Unseen Paraphraser - DetectGPT | 0.360 | 0.384 | 0.609 | 0.630 | 0.434 |
| RADAR-Unseen Paraphraser - OpenAI (RoBERTa) | 0.789 | 0.629 | 0.726 | 0.364 | 0.627 |
| RADAR-Unseen Paraphraser - RADAR | 0.955 | 0.861 | 0.851 | 0.763 | 0.857 |
- RADAR는 8개의 LLM과 4개의 데이터세트에서 패러프레이즈가 있을 때도 Baselines를 능가하며 강건한 AI-텍스트 탐지를 달성한다.
- 감지기는 비perturbed AI-텍스트에 대해서도 경쟁력 있는 성능을 유지하면서 패러프레이징에 대한 강건성을 얻는다.
- 지시 튜닝된 LLM으로 학습된 감지기가 다른 LLM으로 더 잘 전달되어 보편적 감지기에 대한 가능성을 시사한다.
- 다수의 경우에서 RADAR 감지기가 GPT-4 생성 텍스트로의 전달이 강하다.
- RADAR는 부수적으로 프레이저 품질을 향상시키며, 인간과 유사한 평가 및 iBLEU 점수에서 더 높은 품질의 패러프레이즈를 산출한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.