QUICK REVIEW

[논문 리뷰] People who frequently use ChatGPT for writing tasks are accurate and robust detectors of AI-generated text

Jenna Russell, Marzena Karpinska|ArXiv.org|2025. 01. 26.

Artificial Intelligence in Healthcare and Education인용 수 3

한 줄 요약

LLM을 자주 사용하는 인간 주석가가 텍스트를 AI가 생성했는지 높은 정확도로 감지하며 대부분의 자동 탐지기보다 우수합니다. 패러프레이징 및 인간화 기법에도 불구하고. 다섯 명 전문가 다수결은 300편의 기사에서 거의 완벽한 정확성을 달성합니다.

ABSTRACT

In this paper, we study how well humans can detect text generated by commercial LLMs (GPT-4o, Claude, o1). We hire annotators to read 300 non-fiction English articles, label them as either human-written or AI-generated, and provide paragraph-length explanations for their decisions. Our experiments show that annotators who frequently use LLMs for writing tasks excel at detecting AI-generated text, even without any specialized training or feedback. In fact, the majority vote among five such "expert" annotators misclassifies only 1 of 300 articles, significantly outperforming most commercial and open-source detectors we evaluated even in the presence of evasion tactics like paraphrasing and humanization. Qualitative analysis of the experts' free-form explanations shows that while they rely heavily on specific lexical clues ('AI vocabulary'), they also pick up on more complex phenomena within the text (e.g., formality, originality, clarity) that are challenging to assess for automatic detectors. We release our annotated dataset and code to spur future research into both human and automated detection of AI-generated text.

연구 동기 및 목표

학습 없이 자주 LLM을 사용하는 사람이 AI 생성 논픽션 텍스트를 신뢰할 수 있게 감지할 수 있는지 식별합니다.
현대 LLM(GPT-4o, Claude-3.5-Sonnet, o1-Pro)에 걸쳐 전문가 인간 감지자와 자동 감지자를 비교합니다.
AI와 인간 작성 구별에 대해 전문가가 사용하는 특징을 분석합니다.
패러프레이징과 인간화 같은 회피 tactics 하에서 전문가 감지의 강건성을 평가합니다.
향후 연구를 촉진하기 위해 주석 데이터와 코드를 제공합니다.

제안 방법

300개의 논픽션 기사를 인간이 인간/AI가 쓴 것으로 레이블링하고 문단 길이의 설명을 제공합니다.
LLM을 자주 사용하는 다섯 명의 주석자 중 일부를 '전문가'로 식별합니다.
전문가와 비전문가가 여러 LLM이 생성한 기사 배치를 심사하도록 하며, 패러프레이즈 및 인간화 변형을 포함합니다.
탐지기를 재현하려면 진짜 긍정율(TPR)과 거짓 양성율(FPR)을 평가하고 필요한 경우 고정된 FPR에 맞춰 임계값을 보정합니다.
전문가 다수결과 자동 탐지기(Pangram, GPTZero, Binoculars, Fast-DetectGPT) 및 프롬프트 기반 탐지기를 비교합니다.
주석 데이터와 코드를 공개합니다.

Figure 1: A human expert’s annotations of an article generated by OpenAI’s o1-Pro with humanization. The expert provides a judgment on whether the text is written by a human or AI, a confidence score, and an explanation (including both free-form text and highlighted spans) of their decision.

실험 결과

연구 질문

RQ1자주 LLM을 사용하여 글을 쓰는 인간 집단이 훈련 없이 AI 생성 텍스트를 신뢰할 수 있게 감지할 수 있습니까?
RQ2전문가 인간 감지자는 GPT-4o를 넘는 다양한 LLM에 일반화합니까?
RQ3패러프레이징과 인간화 공격에 대해 전문가 감지자는 얼마나 강건합니까?
RQ4제어된 테스트 세트에서 전문가 감지자는 최신 자동 감지기와 어떻게 비교됩니까?
RQ5AI 대 인간 작문을 구분할 때 전문가가 의존하는 단서는 무엇입니까?

주요 결과

탐지기	GPT-4o (TPR (FPR))	Claude-3.5-Sonnet (TPR (FPR))	GPT-4o 패러프레이즈드 (TPR (FPR))	o1-Pro (TPR (FPR))	o1-Pro 인간화 (TPR (FPR))	종합 (TPR (FPR))
전문가 다수결	100 (0)	100 (0)	100 (0)	96.7 (0)	100 (0)	99.3 (0)

자주 LLM을 사용하는 전문 주석자는 높은 탐지 정확도를 달성합니다(TPR ≈ 92.7%와 FPR ≈ 3.3%의 초기 배치; 다수결은 거의 완벽한 성능에 도달합니다).
전문가 다수결은 여러 모델과 회피 전략에서 대부분의 자동 탐지기보다 우수하며, Pangram은 특정 구성에서 거의 완벽한 정확도에 근접합니다.
패러프레이징과 인간화는 전문가의 성능을 크게 저하시키지 못합니다; 전문가들은 이러한 회피 전략에 대해 여전히 강건합니다.
전문가들은 AI 어휘, 형식적 구조 및 독창성을 신뢰하는 한편 어조, 명확성 및 사실성도 판단에 고려합니다.
새로운 모델 패러다임(예: o1-Pro)도 전문가 다수결에 의해 신뢰하게 감지될 수 있지만, 특히 까다로운 사례에서는 확신이 떨어질 수 있습니다.
데이터 세트와 코드는 향후 인간 및 자동 AI 생성 텍스트 탐지 연구를 지원하기 위해 공개됩니다.

Figure 2: Expert confidence in their decisions drops when judging humanized articles generated by o1-Pro .

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.