QUICK REVIEW

[논문 리뷰] Raidar: geneRative AI Detection viA Rewriting

Chengzhi Mao, Carl Vondrick|arXiv (Cornell University)|2024. 01. 23.

Topic Modeling인용 수 5

한 줄 요약

Raidar는 입력을 재작성하도록 LLM에 프롬프트를 주고 텍스트가 얼마나 변하는지 측정하여 AI가 생성한 텍스트를 탐지합니다. 불변성, 등가성, 불확실성 신호를 활용해 다양한 도메인과 모델에서 탐지 성능을 개선합니다.

ABSTRACT

We find that large language models (LLMs) are more likely to modify human-written text than AI-generated text when tasked with rewriting. This tendency arises because LLMs often perceive AI-generated text as high-quality, leading to fewer modifications. We introduce a method to detect AI-generated content by prompting LLMs to rewrite text and calculating the editing distance of the output. We dubbed our geneRative AI Detection viA Rewriting method Raidar. Raidar significantly improves the F1 detection scores of existing AI content detection models -- both academic and commercial -- across various domains, including News, creative writing, student essays, code, Yelp reviews, and arXiv papers, with gains of up to 29 points. Operating solely on word symbols without high-dimensional features, our method is compatible with black box LLMs, and is inherently robust on new content. Our results illustrate the unique imprint of machine-generated text through the lens of the machines themselves.

연구 동기 및 목표

진화하는 LLM 능력 속에서 기계 생성 텍스트의 강력한 탐지를 촉진하는 것을 목표로 한다.
고차원 특징에 의존하지 않는 재작성 기반 탐지 패러다임을 도입한다.
기호적(단어 수준)의 출력과 편집 거리 지표를 활용하여 인간 텍스트와 기계 텍스트를 구분한다.
블랙박스 LLM 및 보지 못한 생성기를 포함한 도메인 간 및 모델 간 강건성을 입증한다.

제안 방법

입력 텍스트의 재작성 버전을 얻기 위해 LLM에 재작성 프롬프트를 제시한다.
원본 텍스트와 재작성 텍스트에서 불변성, 등가성, 출력 불확실성 지표를 계산한다.
연속 특성 공간 의존성을 피하기 위해 이산적 단어-기호 출력으로 작동한다.
원래 텍스트와 재작성 텍스트 간의 편집 거리를 Levenshtein 기반 비율과 bag-of-words 편집을 사용해 측정한다.
재작성 기반 특징으로 이진 분류기(로지스틱 회귀 또는 XGBoost)를 학습한다.
여러 프롬프트로 학습시켜 적대적 프롬프트에 대한 강건성을 보인다.

실험 결과

연구 질문

RQ1재작성 기반 신호(불변성/등가성/불확실성)가 도메인 간 기계생성 텍스트와 인간생성 텍스트를 신뢰성 있게 구분할 수 있는가?
RQ2이 신호들이 서로 다른 언어 모델과 재작성 프롬프트 전반에 걸쳐 일반화되는가, 블랙박스 LLM을 포함하여?
RQ3입력 길이가 탐지 성능에 어떤 영향을 미치는가, 그리고 이 방법이 탐지기를 우회하려는 적대적 시도에 견딜 수 있는가?
RQ4다른 재작성 모델(Ada, Text-Davinci-002, GPT-3.5-turbo)이 탐지 효과에 미치는 영향은 무엇인가?
RQ5테스트 모델이 학습 모델과 다를 분포 밖 상황에서 이 접근법이 강건한가?

주요 결과

Raidar는 여러 데이터세트에서 최첨단 비교기준 대비 탐지 성능을 크게 향상시키며 최대 29 F1 포인트의 향상을 보인다.
본 방법은 보지 못한 생성 모델(또는 다른 생성 모델)의 텍스트를 탐지할 때도 효과적이며 주목할 만한 개선(최대 32포인트)을 보인다.
단일 재작성 프롬프트를 GPT-3.5-turbo로 사용할 때 강한 탐지 성능이 나오며, 더 큰 재작성 모델이 결과를 더욱 향상시킨다.
탐지는 도메인 전반에서 강건성을 유지하며(뉴스, 창작 글, 학생 에세이, 코드, Yelp, arXiv 초록) 탐지를 회피하도록 프롬프트가 맞춰져 있어도 견고하다.
더 긴 입력은 일반적으로 탐지 성능을 개선하며, 짧은 입력(최소 10 단어)에서도 합리적인 F1 점수를 달성한다.
여러 프롬프트로 학습하는 것이 적대적 재표현 시도에 대한 강건성을 높인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.