QUICK REVIEW

[논문 리뷰] RADAR: Robust AI-Text Detection via Adversarial Learning

Xiaomeng Hu, Pin‐Yu Chen|arXiv (Cornell University)|2023. 07. 07.

Hate Speech and Cyberbullying Detection인용 수 29

한 줄 요약

RADAR는 적대적 프레이저와 감지기를 공동으로 학습하여 여러 LLM 및 데이터세트에서 패러프레이징에 강인한 AI-텍스트 감지기를 만들어낸다.

ABSTRACT

Recent advances in large language models (LLMs) and the intensifying popularity of ChatGPT-like applications have blurred the boundary of high-quality text generation between humans and machines. However, in addition to the anticipated revolutionary changes to our technology and society, the difficulty of distinguishing LLM-generated texts (AI-text) from human-generated texts poses new challenges of misuse and fairness, such as fake content generation, plagiarism, and false accusations of innocent writers. While existing works show that current AI-text detectors are not robust to LLM-based paraphrasing, this paper aims to bridge this gap by proposing a new framework called RADAR, which jointly trains a robust AI-text detector via adversarial learning. RADAR is based on adversarial training of a paraphraser and a detector. The paraphraser's goal is to generate realistic content to evade AI-text detection. RADAR uses the feedback from the detector to update the paraphraser, and vice versa. Evaluated with 8 different LLMs (Pythia, Dolly 2.0, Palmyra, Camel, GPT-J, Dolly 1.0, LLaMA, and Vicuna) across 4 datasets, experimental results show that RADAR significantly outperforms existing AI-text detection methods, especially when paraphrasing is in place. We also identify the strong transferability of RADAR from instruction-tuned LLMs to other LLMs, and evaluate the improved capability of RADAR via GPT-3.5-Turbo.

연구 동기 및 목표

강화된 패러프레이즈된 기계 텍스트에 직면한 AI-텍스트 탐지의 강건성 제고.
적대적 학습을 통해 프레이저와 감지기를 함께 학습하는 RADAR를 제안.
다양한 LLM 및 데이터셋 전반에서 RADAR의 강건성, 전달성, 성능을 입증.
적대적 학습을 통한 감지기 전달성 및 프레이저 품질 향상 탐구

제안 방법

인간 텍스트 데이터를 이용해 대상 고정 LLM으로 AI-텍스트를 생성한다.
PPO에 엔트로피 페널티를 추가한 방식으로 AI-텍스트를 재작성하여 탐지를 회피하도록 프레이저 G_sigma를 학습한다.
리샤프 로지스틱 손실(reweighted logistic loss)을 사용하여 샘플 불균형을 처리하면서 인간 텍스트와 AI-텍스트(패러프레이즈 출력 포함)를 구분하도록 감지기 D_phi를 학습한다.
검증 세트의 AUROC가 안정될 때까지 프레이저와 감지기를 PPO 보상 및 로지스틱 손실로 반복적으로 업데이트한다.
4개 데이터세트와 8개의 LLM에서 감지기 성능을 평가하며, 보지 못한 프레이저(GPT-3.5-Turbo 포함)도 포함한다.
패러프레이징 없이와 패러프레이징 성능 사이의 균형을 맞추기 위한 균형 하이퍼파라미터 lambda 조정 선택 가능

실험 결과

연구 질문

RQ1적대적으로 학습된 프레이저가 AI-텍스트 탐지 가능성을 붕괴시킬 수 있으며, 감지기가 이러한 프레이레이즈에 저항하도록 학습될 수 있는가?
RQ2RADAR가 다양한 LLM 및 데이터세트에서 어떻게 성능을 보이고, 감지기가 보지 못한 모델로 얼마나 전달될 수 있는가?
RQ3적대적 학습이 패러프레이징에 대한 강건성을 향상시키되 비perturbed 탐지 성능을 지나치게 희생시키지 않는가?
RQ4지시 튜닝이 LLM 간 감지기 전달성에 미치는 영향은?
RQ5학습 중 보지 못한 프레이저에 대해서도 학습된 감지기가 일반화될 수 있는가?

주요 결과

평가 스키마	Xsum	SQuAD	WP	TOFEL	평균
w/o Paraphraser - log p	0.882	0.868	0.967	0.832	0.887
w/o Paraphraser - rank	0.722	0.752	0.814	0.731	0.755
w/o Paraphraser - log rank	0.902	0.893	0.975	0.847	0.904
w/o Paraphraser - entropy	0.536	0.521	0.296	0.534	0.472
w/o Paraphraser - DetectGPT	0.874	0.790	0.883	0.919	0.867
w/o Paraphraser - OpenAI (RoBERTa)	0.953	0.914	0.924	0.810	0.900
w/o Paraphraser - RADAR	0.934	0.825	0.847	0.820	0.856
RADAR-Seen Paraphraser - log p	0.230	0.156	0.275	0.130	0.198
RADAR-Seen Paraphraser - rank	0.334	0.282	0.357	0.163	0.284
RADAR-Seen Paraphraser - log rank	0.245	0.175	0.281	0.134	0.209
RADAR-Seen Paraphraser - entropy	0.796	0.845	0.763	0.876	0.820
RADAR-Seen Paraphraser - DetectGPT	0.191	0.105	0.117	0.177	0.159
RADAR-Seen Paraphraser - OpenAI (RoBERTa)	0.821	0.842	0.892	0.670	0.806
RADAR-Seen Paraphraser - RADAR	0.920	0.927	0.908	0.932	0.922
RADAR-Unseen Paraphraser - log p	0.266	0.343	0.641	0.438	0.422
RADAR-Unseen Paraphraser - rank	0.433	0.436	0.632	0.342	0.461
RADAR-Unseen Paraphraser - log rank	0.282	0.371	0.632	0.421	0.426
RADAR-Unseen Paraphraser - entropy	0.779	0.710	0.499	0.618	0.651
RADAR-Unseen Paraphraser - DetectGPT	0.360	0.384	0.609	0.630	0.434
RADAR-Unseen Paraphraser - OpenAI (RoBERTa)	0.789	0.629	0.726	0.364	0.627
RADAR-Unseen Paraphraser - RADAR	0.955	0.861	0.851	0.763	0.857

RADAR는 8개의 LLM과 4개의 데이터세트에서 패러프레이즈가 있을 때도 Baselines를 능가하며 강건한 AI-텍스트 탐지를 달성한다.
감지기는 비perturbed AI-텍스트에 대해서도 경쟁력 있는 성능을 유지하면서 패러프레이징에 대한 강건성을 얻는다.
지시 튜닝된 LLM으로 학습된 감지기가 다른 LLM으로 더 잘 전달되어 보편적 감지기에 대한 가능성을 시사한다.
다수의 경우에서 RADAR 감지기가 GPT-4 생성 텍스트로의 전달이 강하다.
RADAR는 부수적으로 프레이저 품질을 향상시키며, 인간과 유사한 평가 및 iBLEU 점수에서 더 높은 품질의 패러프레이즈를 산출한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.