[논문 리뷰] Large Language Models can be Guided to Evade AI-Generated Text Detection
The paper introduces SICO, a substitution-based in-context learning method that builds task-specific prompts enabling LLMs to evade multiple detectors across several tasks, with low cost and broad applicability.
Large language models (LLMs) have shown remarkable performance in various tasks and have been extensively utilized by the public. However, the increasing concerns regarding the misuse of LLMs, such as plagiarism and spamming, have led to the development of multiple detectors, including fine-tuned classifiers and statistical methods. In this study, we equip LLMs with prompts, rather than relying on an external paraphraser, to evaluate the vulnerability of these detectors. We propose a novel Substitution-based In-Context example Optimization method (SICO) to automatically construct prompts for evading the detectors. SICO is cost-efficient as it requires only 40 human-written examples and a limited number of LLM inferences to generate a prompt. Moreover, once a task-specific prompt has been constructed, it can be universally used against a wide range of detectors. Extensive experiments across three real-world tasks demonstrate that SICO significantly outperforms the paraphraser baselines and enables GPT-3.5 to successfully evade six detectors, decreasing their AUC by 0.5 on average. Furthermore, a comprehensive human evaluation show that the SICO-generated text achieves human-level readability and task completion rates, while preserving high imperceptibility. Finally, we propose an ensemble approach to enhance the robustness of detectors against SICO attack. The code is publicly available at https://github.com/ColinLu50/Evade-GPT-Detector.
연구 동기 및 목표
- AI가 생성한 텍스트 탐지기의 강건성을 프로프트 가이드를 통한 회피에 대해 평가합니다.
- 감지기 AUC를 낮추는 프롬프트를 자동으로 구성하는 저비용 방법을 개발합니다.
- SICO의 효과를 세 가지 실제 작업 및 탐지기에 걸쳐 입증합니다.
- SICO-생성 텍스트의 인간 가독성과 실제 적용 가능성을 평가합니다.
제안 방법
- 탐지기로부터의 회피를 극대화하기 위한 프롬프트 유틸리티 함수를 정의합니다(U(p)).
- AI- 및 인간 작성 출력의 데이터세트 D를 수집하여 문체 특성을 추출합니다.
- GreedyOPT를 사용해 프롬프트를 최적화하기 위해 in-context 시연의 단어와 문장을 반복적으로 대체합니다.
- Proxy 탐지기를 안내하는 WordNet 기반의 어휘 수준 대체 및 패러프레이즈 수준의 문장 대체를 활용합니다.
- 작업 프롬프트 p*를 구성하고 유틸리티 비교를 통해 최적의 것을 선택합니다.
- SICO-Gen(직접 생성)와 SICO-Para(패러프레이즈) 변형을 제공합니다.
실험 결과
연구 질문
- RQ1프롬프트 가이드가 있는 인-context 학습이 외부 패러프레이저를 능가하여 탐지기를 회피할 수 있는가?
- RQ2SICO의 비용, 강건성 및 일반성은 탐지기와 작업 across에서 어떤가?
- RQ3인간 평가자가 SICO-생성 텍스트를 읽기 쉽고 목표 지향적으로 평가하는가?
- RQ4실세계 환경(예: Reddit)에서 SICO의 성능은 어떠한가?
주요 결과
| 데이터셋 | 방법 | GPT3-D* | GPT2-D | GPTzero | OpenAI-D | DetectGPT | 로그-랭크 |
|---|---|---|---|---|---|---|---|
| Writing | Parrot | 0.666 | 0.645 | 0.632 | 0.744 | 0.502 | 0.577 |
| Writing | DIPPER | 0.736 | 0.907 | 0.689 | 0.750 | 0.550 | 0.684 |
| Writing | GPT-Para | 0.879 | 0.623 | 0.631 | 0.690 | 0.569 | 0.713 |
| Writing | Human Prompt | 0.852 | 0.560 | 0.491 | 0.655 | 0.676 | 0.759 |
| Writing | SICO-Para | 0.239 | 0.332 | 0.290 | 0.488 | 0.149 | 0.147 |
| Writing | SICO-Gen | 0.242 | 0.099 | 0.184 | 0.311 | 0.441 | 0.318 |
| QA | Parrot | 0.922 | 0.837 | 0.849 | 0.698 | 0.689 | 0.806 |
| QA | DIPPER | 0.888 | 0.962 | 0.869 | 0.722 | 0.604 | 0.782 |
| QA | GPT-Para | 0.956 | 0.797 | 0.811 | 0.699 | 0.640 | 0.782 |
| QA | Human Prompt | 0.912 | 0.625 | 0.791 | 0.656 | 0.662 | 0.757 |
| QA | SICO-Para | 0.407 | 0.576 | 0.572 | 0.541 | 0.178 | 0.183 |
| QA | SICO-Gen | 0.668 | 0.489 | 0.494 | 0.524 | 0.497 | 0.535 |
| Review | Parrot | 0.871 | 0.934 | 0.913 | 0.882 | 0.654 | 0.893 |
| Review | DIPPER | 0.875 | 0.984 | 0.888 | 0.824 | 0.515 | 0.814 |
| Review | GPT-Para | 0.899 | 0.851 | 0.833 | 0.925 | 0.542 | 0.864 |
| Review | Human Prompt | 0.839 | 0.610 | 0.856 | 0.858 | 0.619 | 0.851 |
| Review | SICO-Para | 0.465 | 0.264 | 0.599 | 0.540 | 0.270 | 0.300 |
| Review | SICO-Gen | 0.455 | 0.619 | 0.399 | 0.607 | 0.485 | 0.583 |
- SICO는 여섯 개 탐지기와 세 작업에 걸쳐 탐지기 AUC를 일관되게 낮추며 종종 0.5 미만으로 떨어뜨립니다.
- SICO-Para는 통계적 탐지기에 대해 일반적으로 SICO-Gen보다 우수하게 성능을 발휘하며, 두 접근 모두 강력한 회피를 달성합니다.
- 인간 평가에서 SICO 텍스트는 읽기 쉽고 인간 작성 텍스트에 근접한 작업 완성률을 달성합니다.
- 실생활 Reddit 테스트에서 SICO 생성 대답이 좋아요와 참여를 얻습니다.
- SICO는 40개의 인간 작성 예시와 소규모 LLM 추론만으로도 작동하며, 프롬프트는 탐지기에 걸쳐 일반화됩니다.
- SICO는 향후 AI 생성 텍스트 탐지 도구의 표준 평가 도구로 활용될 수 있습니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.