[論文レビュー] People who frequently use ChatGPT for writing tasks are accurate and robust detectors of AI-generated text
LLMを頻繁に使用する人間のアノテーターは、テキストの機械生成を高精度で検出し、ほとんどの自動検出器を上回る。パラフレーズやヒューマナイズのトリックにも強い。5名の専門家の多数決で300記事に対してほぼ完璧な精度を達成。
In this paper, we study how well humans can detect text generated by commercial LLMs (GPT-4o, Claude, o1). We hire annotators to read 300 non-fiction English articles, label them as either human-written or AI-generated, and provide paragraph-length explanations for their decisions. Our experiments show that annotators who frequently use LLMs for writing tasks excel at detecting AI-generated text, even without any specialized training or feedback. In fact, the majority vote among five such "expert" annotators misclassifies only 1 of 300 articles, significantly outperforming most commercial and open-source detectors we evaluated even in the presence of evasion tactics like paraphrasing and humanization. Qualitative analysis of the experts' free-form explanations shows that while they rely heavily on specific lexical clues ('AI vocabulary'), they also pick up on more complex phenomena within the text (e.g., formality, originality, clarity) that are challenging to assess for automatic detectors. We release our annotated dataset and code to spur future research into both human and automated detection of AI-generated text.
研究の動機と目的
- 頻繁にLLMを使用する人が訓練なしでAI生成非フィクションテキストを確実に検出できるかを識別する。
- 専門的な人間の検出者を自動検出器と比較し、現代のLLM(GPT-4o、Claude-3.5-Sonnet、o1-Pro)を横断して評価する。
- 専門家がAIと人間の文章を区別する際に用いる特徴を分析する。
- パラフレーズやヒューマナイズといった回避戦術下で専門検出の頑健性を評価する。
- 将来のAI生成テキスト検出研究を促進するための注釈付きデータとコードを提供する。
提案手法
- 人間のアノテーターを募集し、300件の非フィクション記事を人間/AI作成としてラベル付けし、段落長の説明を付与する。
- LLMを頻繁に執筆タスクに使用する5名のアノテーターを“専門家”として subsetで識別する。
- 専門家と非専門家に、複数のLLMによって生成された記事のバッチを判断させ、パラフレーズ済み・人間味を持たせた変種を含める。
- 検出器を真陽性率(TPR)と偽陽性率(FPR)で評価し、必要に応じて固定FPRに閾値をキャリブレーションする。
- 専門家の多数決を自動検出器(Pangram、GPTZero、Binoculars、Fast-DetectGPT)およびプロンプトベース検出器と比較する。
- 将来の研究を支援するために注釈付きデータセットとコードを公開する。

実験結果
リサーチクエスチョン
- RQ1訓練なしで、頻繁にLLMを使用する人間の集団はAI生成テキストを確実に検出できるか。
- RQ2専門家の人間検出者はGPT-4o以外の異なるLLMにも一般化するか。
- RQ3パラフレージングやヒューマナイズ攻撃に対して専門家検出は頑健か。
- RQ4統制されたテストセットで専門家は最先端の自動検出器とどう比較されるか。
- RQ5専門家はAIと人間の文章を区別する際にどんな手掛かりを頼りにするか。
主な発見
| Detector | GPT-4o (TPR (FPR)) | Claude-3.5-Sonnet (TPR (FPR)) | GPT-4o paraphrased (TPR (FPR)) | o1-Pro (TPR (FPR)) | o1-Pro humanized (TPR (FPR)) | Overall (TPR (FPR)) |
|---|---|---|---|---|---|---|
| Expert majority vote | 100 (0) | 100 (0) | 100 (0) | 96.7 (0) | 100 (0) | 99.3 (0) |
- LLMを頻繁に使用する専門アノテーターは高い検出精度を達成(初期バッチでTPR ≈ 92.7%、FPR ≈ 3.3%、多数決でほぼ完璧な成績)。
- 専門家の多数決は複数モデルと回避戦術を横断してほとんどの自動検出器を上回り、 Pangram はいくつかの構成で彼らのほぼ完璧な精度に匹敵。
- パラフレージングとヒューマナイズは専門家の性能を大幅に低下させず、回避戦略に対しても頑健。
- 専門家はAI語彙、定型的構造、独自性を重視するが、トーン、明確さ、事実性も判断材料とする。
- 新しいモデルパラダイム(例:o1-Pro)でも専門家多数決は信頼性高く検出可能だが、特に難解な事例では自信が低下することがある。
- データセットとコードを公開し、将来の研究を支援する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。