[论文解读] People who frequently use ChatGPT for writing tasks are accurate and robust detectors of AI-generated text
频繁使用大语言模型(LLMs)进行写作任务的人类注释者在识别AI生成文本方面具有高准确性,超过大多数自动检测器,即使在改写和人性化技巧下也是如此。五位专家多数投票在300篇文章上几乎达到完美准确率。
In this paper, we study how well humans can detect text generated by commercial LLMs (GPT-4o, Claude, o1). We hire annotators to read 300 non-fiction English articles, label them as either human-written or AI-generated, and provide paragraph-length explanations for their decisions. Our experiments show that annotators who frequently use LLMs for writing tasks excel at detecting AI-generated text, even without any specialized training or feedback. In fact, the majority vote among five such "expert" annotators misclassifies only 1 of 300 articles, significantly outperforming most commercial and open-source detectors we evaluated even in the presence of evasion tactics like paraphrasing and humanization. Qualitative analysis of the experts' free-form explanations shows that while they rely heavily on specific lexical clues ('AI vocabulary'), they also pick up on more complex phenomena within the text (e.g., formality, originality, clarity) that are challenging to assess for automatic detectors. We release our annotated dataset and code to spur future research into both human and automated detection of AI-generated text.
研究动机与目标
- 识别是否频繁使用LLM的人员在不进行培训的情况下能否可靠地检测AI生成的非小说文本。
- 在现代LLM(GPT-4o、Claude-3.5-Sonnet、o1-Pro)上将专家人类检测与自动检测进行比较。
- 分析专家用于区分AI与人类写作的特征。
- 评估在规避策略(改写、人性化)下专家检测的鲁棒性。
- 提供带注释的数据集和代码,以促进未来在AI生成文本检测方面的研究。
提出的方法
- 招募人工标注者,对300篇非虚构文章进行人类标注,给出段落长度的解释。
- 筛选出五名经常使用LLMs进行写作任务的标注者,作为“专家”。
- 让专家与非专家评判由多种LLMs生成的文章批次,其中包含改写和人性化版本。
- 通过真阳性率(TPR)和假阳性率(FPR)来评估检测器,在必要时将阈值校准到固定FPR。
- 将专家多数投票与自动检测器(Pangram、GPTZero、Binoculars、Fast-DetectGPT)及基于提示的检测器进行比较。
- 发布带注释的数据集和代码供未来研究使用。

实验结果
研究问题
- RQ1频繁使用LLMs写作的人群是否在不训练的情况下即可可靠地检测AI生成文本?
- RQ2专家人类检测是否在GPT-4o以外的不同LLM上具有泛化性?
- RQ3专家检测在改写和人性化攻击下的鲁棒性如何?
- RQ4在受控测试集上,专家检测与最先进的自动检测器相比的表现如何?
- RQ5专家在区分AI与人类写作时依赖哪些线索?
主要发现
| Detector | GPT-4o (TPR (FPR)) | Claude-3.5-Sonnet (TPR (FPR)) | GPT-4o paraphrased (TPR (FPR)) | o1-Pro (TPR (FPR)) | o1-Pro humanized (TPR (FPR)) | Overall (TPR (FPR)) |
|---|---|---|---|---|---|---|
| Experts majority vote | 100 (0) | 100 (0) | 100 (0) | 96.7 (0) | 100 (0) | 99.3 (0) |
- 经常使用LLMs的专家注释者在检测准确性方面表现出色(初始批次TPR≈92.7%、FPR≈3.3%;多数投票接近完美表现)。
- 专家多数投票在多模型和规避策略下超越大多数自动检测器,在某些配置下,Pangram达到与他们近乎完美的准确性。
- 改写与人性化对专家表现影响不大;专家对这些规避策略仍然具有鲁棒性。
- 专家依赖AI词汇、公式化结构和原创性,同时在判断时也考虑语气、清晰度和事实性。
- 即便是新模型范式(如o1-Pro)也能被专家多数可靠检测,尽管对于特别具有挑战性的实例信心可能下降。
- 数据集和代码已发布,以支持未来在人工与自动AI生成文本检测方面的研究。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。