Skip to main content
QUICK REVIEW

[논문 리뷰] Can AI-Generated Text be Reliably Detected?

Vinu Sankar Sadasivan, Aounon Kumar|arXiv (Cornell University)|2023. 03. 17.
Adversarial Robustness in Machine Learning인용 수 148
한 줄 요약

이 논문은 현재의 AI 텍스트 탐지기들(워터마크 기반, 제로샷, 및 검색 기반)이 패러프레이징에 취약하며 이론적으로 언어 모델의 능력이 커질수록 탐지 신뢰도가 하락한다는 것을 보여준다. 이는 실험적 공격과 근본 한계를 나타내는 불가능성 결과를 제공한다.

ABSTRACT

Large Language Models (LLMs) perform impressively well in various applications. However, the potential for misuse of these models in activities such as plagiarism, generating fake news, and spamming has raised concern about their responsible use. Consequently, the reliable detection of AI-generated text has become a critical area of research. AI text detectors have shown to be effective under their specific settings. In this paper, we stress-test the robustness of these AI text detectors in the presence of an attacker. We introduce recursive paraphrasing attack to stress test a wide range of detection schemes, including the ones using the watermarking as well as neural network-based detectors, zero shot classifiers, and retrieval-based detectors. Our experiments conducted on passages, each approximately 300 tokens long, reveal the varying sensitivities of these detectors to our attacks. Our findings indicate that while our recursive paraphrasing method can significantly reduce detection rates, it only slightly degrades text quality in many cases, highlighting potential vulnerabilities in current detection systems in the presence of an attacker. Additionally, we investigate the susceptibility of watermarked LLMs to spoofing attacks aimed at misclassifying human-written text as AI-generated. We demonstrate that an attacker can infer hidden AI text signatures without white-box access to the detection method, potentially leading to reputational risks for LLM developers. Finally, we provide a theoretical framework connecting the AUROC of the best possible detector to the Total Variation distance between human and AI text distributions. This analysis offers insights into the fundamental challenges of reliable detection as language models continue to advance. Our code is publicly available at https://github.com/vinusankars/Reliability-of-AI-text-detectors.

연구 동기 및 목표

  • 기존 AI 생성 텍스트 탐지기(워터마킹, 제로샷, 검색 기반)의 신뢰도를 평가한다.
  • 텍스트 품질에 큰 손상을 주지 않으면서 탐지기의 성능을 저하시킬 수 있는 패러프레이징 공격을 시연한다.
  • 사람과 AI 텍스트 분포 간의 total variation distance를 통해 탐지의 이론적 한계를 제시한다.

제안 방법

  • 가벼운 패러프레이저(PEGASUS 기반 및 T5 기반)를 사용한 패러프레이징 공격의 실증적 평가를 워터마크가 있는 텍스트와 없는 텍스트에서 수행한다.
  • 재귀적 패러프레이징(다수 라운드까지)을 통해 소프트 워터마킹, 제로샷, 신경망 기반, 검색 기반 탐지기 간의 탐지기 강건성을 테스트한다.
  • 재검색 기반 방어를 평가하기 위한 재귀적 패러프레이징 및 패러프레이즈 기반 스푸핑 공격에 대한 평가를 수행한다.
  • AUROC와 인간 및 AI 텍스트 분포 간의 total variation distance를 관련시키는 불가능성 경계의 이론적 도출이 제시된다.
  • 텍스트 생성에서 의사난수(pseudorandom) 대 진짜 난수에 대한 불가능성 결과의 확장이 제시된다.
  • 적대자가 숨겨진 서명을 추론하거나 의미적 검색을 악용하는 스푸핑 공격이 탐지기 신뢰를 약화시킬 수 있음을 분석한다.
Figure 1 : An illustration of vulnerabilities of existing AI-text detectors. We consider both watermarking-based [ 1 ] and non-watermarking-based detectors [ 2 , 3 , 4 ] and show that they are not reliable in practical scenarios. Colored arrow paths show the potential pipelines for adversaries to av
Figure 1 : An illustration of vulnerabilities of existing AI-text detectors. We consider both watermarking-based [ 1 ] and non-watermarking-based detectors [ 2 , 3 , 4 ] and show that they are not reliable in practical scenarios. Colored arrow paths show the potential pipelines for adversaries to av

실험 결과

연구 질문

  • RQ1현행 탐지기는 실제 패러프레이징이나 스푸핑 공격하에서 AI 생성 텍스트를 신뢰할 수 있게 구분하는가?
  • RQ2패러프레이징과 재귀적 패러프레이징이 워터마킹, 제로샷, 신경망 탐지기, 검색 기반 방어의 정확도에 어떤 영향을 미치는가?
  • RQ3LLM이 더 능력 있게 되면서 AI 생성 텍스트를 탐지하는 근본적 한계는 무엇인가?
  • RQ4생성 과정의 의사난수(pseudorandomness)가 탐지 가능성 및 탐지기 성능에 어떤 영향을 미치는가?
  • RQ5스푸핑 공격이 워터마킹과 탐지기 신뢰성을 약화시킬 수 있으며, 어떤 조건에서 그런가?

주요 결과

  • 패러프레이징 공격은 워터마킹, 제로샷, 신경망 탐지기 전반에서 탐지기 성능을 대폭 감소시킨다(예: 워터마킹 정확도 97%에서 80%로, 제로샷 AUROC 96.5%에서 25.2%로).
  • 재귀적 패러프레이징은 검색 기반 탐지기를 1% FPR에서 100%에서 25% 정확도로 떨어뜨린다; 워터마킹과 제로샷 탐지기도 심한 하락을 겪는다.
  • 불가능성 결과는 AUROC(D) ≤ 1/2 + TV(M, H) − TV(M, H)^2/2 를 보여주며, 분포가 수렴할수록 탐지 접근 방식이 무작위 추측에 가까워짐을 시사한다; 의사난수(pseudorandom) 경우의 아주 작은 ε에서도 이 성질이 성립한다.
  • 경험적 추정은 더 큰 모델에서 인간과 GPT-3 모델 출력 간의 total variation이 감소함을 보여주며 이론적 한계를 지지한다.
  • 적대자가 워터마크 서명을 학습하거나 의미적 검색을 악용하는 스푸핑 공격은 인간 텍스트가 AI 생성으로 탐지되도록 만들 수 있어 탐지기 신뢰를 약화시킨다.
  • 본 연구 결과는 실제 환경에 배포하기 전에 탐지기에 대해 주의와 엄격한 독립적 평가를 촉진한다.
Figure 2 : Accuracy of the soft watermarking detector on paraphrased LLM outputs plotted against perplexity. The lower the perplexity is, the better the quality of the text is.
Figure 2 : Accuracy of the soft watermarking detector on paraphrased LLM outputs plotted against perplexity. The lower the perplexity is, the better the quality of the text is.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.