Skip to main content
QUICK REVIEW

[논문 리뷰] RADAR: Robust AI-Text Detection via Adversarial Learning

Xiaomeng Hu, Pin‐Yu Chen|arXiv (Cornell University)|2023. 07. 07.
Hate Speech and Cyberbullying Detection인용 수 29
한 줄 요약

RADAR는 적대적 프레이저와 감지기를 공동으로 학습하여 여러 LLM 및 데이터세트에서 패러프레이징에 강인한 AI-텍스트 감지기를 만들어낸다.

ABSTRACT

Recent advances in large language models (LLMs) and the intensifying popularity of ChatGPT-like applications have blurred the boundary of high-quality text generation between humans and machines. However, in addition to the anticipated revolutionary changes to our technology and society, the difficulty of distinguishing LLM-generated texts (AI-text) from human-generated texts poses new challenges of misuse and fairness, such as fake content generation, plagiarism, and false accusations of innocent writers. While existing works show that current AI-text detectors are not robust to LLM-based paraphrasing, this paper aims to bridge this gap by proposing a new framework called RADAR, which jointly trains a robust AI-text detector via adversarial learning. RADAR is based on adversarial training of a paraphraser and a detector. The paraphraser's goal is to generate realistic content to evade AI-text detection. RADAR uses the feedback from the detector to update the paraphraser, and vice versa. Evaluated with 8 different LLMs (Pythia, Dolly 2.0, Palmyra, Camel, GPT-J, Dolly 1.0, LLaMA, and Vicuna) across 4 datasets, experimental results show that RADAR significantly outperforms existing AI-text detection methods, especially when paraphrasing is in place. We also identify the strong transferability of RADAR from instruction-tuned LLMs to other LLMs, and evaluate the improved capability of RADAR via GPT-3.5-Turbo.

연구 동기 및 목표

  • 강화된 패러프레이즈된 기계 텍스트에 직면한 AI-텍스트 탐지의 강건성 제고.
  • 적대적 학습을 통해 프레이저와 감지기를 함께 학습하는 RADAR를 제안.
  • 다양한 LLM 및 데이터셋 전반에서 RADAR의 강건성, 전달성, 성능을 입증.
  • 적대적 학습을 통한 감지기 전달성 및 프레이저 품질 향상 탐구

제안 방법

  • 인간 텍스트 데이터를 이용해 대상 고정 LLM으로 AI-텍스트를 생성한다.
  • PPO에 엔트로피 페널티를 추가한 방식으로 AI-텍스트를 재작성하여 탐지를 회피하도록 프레이저 G_sigma를 학습한다.
  • 리샤프 로지스틱 손실(reweighted logistic loss)을 사용하여 샘플 불균형을 처리하면서 인간 텍스트와 AI-텍스트(패러프레이즈 출력 포함)를 구분하도록 감지기 D_phi를 학습한다.
  • 검증 세트의 AUROC가 안정될 때까지 프레이저와 감지기를 PPO 보상 및 로지스틱 손실로 반복적으로 업데이트한다.
  • 4개 데이터세트와 8개의 LLM에서 감지기 성능을 평가하며, 보지 못한 프레이저(GPT-3.5-Turbo 포함)도 포함한다.
  • 패러프레이징 없이와 패러프레이징 성능 사이의 균형을 맞추기 위한 균형 하이퍼파라미터 lambda 조정 선택 가능

실험 결과

연구 질문

  • RQ1적대적으로 학습된 프레이저가 AI-텍스트 탐지 가능성을 붕괴시킬 수 있으며, 감지기가 이러한 프레이레이즈에 저항하도록 학습될 수 있는가?
  • RQ2RADAR가 다양한 LLM 및 데이터세트에서 어떻게 성능을 보이고, 감지기가 보지 못한 모델로 얼마나 전달될 수 있는가?
  • RQ3적대적 학습이 패러프레이징에 대한 강건성을 향상시키되 비perturbed 탐지 성능을 지나치게 희생시키지 않는가?
  • RQ4지시 튜닝이 LLM 간 감지기 전달성에 미치는 영향은?
  • RQ5학습 중 보지 못한 프레이저에 대해서도 학습된 감지기가 일반화될 수 있는가?

주요 결과

평가 스키마XsumSQuADWPTOFEL평균
w/o Paraphraser - log p0.8820.8680.9670.8320.887
w/o Paraphraser - rank0.7220.7520.8140.7310.755
w/o Paraphraser - log rank0.9020.8930.9750.8470.904
w/o Paraphraser - entropy0.5360.5210.2960.5340.472
w/o Paraphraser - DetectGPT0.8740.7900.8830.9190.867
w/o Paraphraser - OpenAI (RoBERTa)0.9530.9140.9240.8100.900
w/o Paraphraser - RADAR0.9340.8250.8470.8200.856
RADAR-Seen Paraphraser - log p0.2300.1560.2750.1300.198
RADAR-Seen Paraphraser - rank0.3340.2820.3570.1630.284
RADAR-Seen Paraphraser - log rank0.2450.1750.2810.1340.209
RADAR-Seen Paraphraser - entropy0.7960.8450.7630.8760.820
RADAR-Seen Paraphraser - DetectGPT0.1910.1050.1170.1770.159
RADAR-Seen Paraphraser - OpenAI (RoBERTa)0.8210.8420.8920.6700.806
RADAR-Seen Paraphraser - RADAR0.9200.9270.9080.9320.922
RADAR-Unseen Paraphraser - log p0.2660.3430.6410.4380.422
RADAR-Unseen Paraphraser - rank0.4330.4360.6320.3420.461
RADAR-Unseen Paraphraser - log rank0.2820.3710.6320.4210.426
RADAR-Unseen Paraphraser - entropy0.7790.7100.4990.6180.651
RADAR-Unseen Paraphraser - DetectGPT0.3600.3840.6090.6300.434
RADAR-Unseen Paraphraser - OpenAI (RoBERTa)0.7890.6290.7260.3640.627
RADAR-Unseen Paraphraser - RADAR0.9550.8610.8510.7630.857
  • RADAR는 8개의 LLM과 4개의 데이터세트에서 패러프레이즈가 있을 때도 Baselines를 능가하며 강건한 AI-텍스트 탐지를 달성한다.
  • 감지기는 비perturbed AI-텍스트에 대해서도 경쟁력 있는 성능을 유지하면서 패러프레이징에 대한 강건성을 얻는다.
  • 지시 튜닝된 LLM으로 학습된 감지기가 다른 LLM으로 더 잘 전달되어 보편적 감지기에 대한 가능성을 시사한다.
  • 다수의 경우에서 RADAR 감지기가 GPT-4 생성 텍스트로의 전달이 강하다.
  • RADAR는 부수적으로 프레이저 품질을 향상시키며, 인간과 유사한 평가 및 iBLEU 점수에서 더 높은 품질의 패러프레이즈를 산출한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.