Skip to main content
QUICK REVIEW

[论文解读] Raidar: geneRative AI Detection viA Rewriting

Chengzhi Mao, Carl Vondrick|arXiv (Cornell University)|Jan 23, 2024
Topic Modeling被引用 5
一句话总结

Raidar 通过提示 LLM 将输入重写来检测 AI 生成的文本,并测量文本的变化程度,利用不变性、协变性和不确定性信号在不同领域和模型上提升检测效果。

ABSTRACT

We find that large language models (LLMs) are more likely to modify human-written text than AI-generated text when tasked with rewriting. This tendency arises because LLMs often perceive AI-generated text as high-quality, leading to fewer modifications. We introduce a method to detect AI-generated content by prompting LLMs to rewrite text and calculating the editing distance of the output. We dubbed our geneRative AI Detection viA Rewriting method Raidar. Raidar significantly improves the F1 detection scores of existing AI content detection models -- both academic and commercial -- across various domains, including News, creative writing, student essays, code, Yelp reviews, and arXiv papers, with gains of up to 29 points. Operating solely on word symbols without high-dimensional features, our method is compatible with black box LLMs, and is inherently robust on new content. Our results illustrate the unique imprint of machine-generated text through the lens of the machines themselves.

研究动机与目标

  • 推动在日益强大的 LLM 能力背景下对机器生成文本的鲁棒检测。
  • 引入一种基于重写的检测范式,该范式不依赖高维特征。
  • 利用符号输出(按词级)和编辑距离度量来区分人类文本与机器文本。
  • 展示跨域和跨模型的鲁棒性,包括黑箱 LLMs 和未见过的生成器。

提出的方法

  • 使用重写提示对 LLM 进行提示,以获得输入文本的重写版本。
  • 从原始文本和重写文本中计算不变性、协变性和输出不确定性度量。
  • 在离散的词符输出上操作,避免对连续特征空间的依赖。
  • 使用基于 Levenshtein 的比率和词袋编辑来衡量原始文本与重写文本之间的编辑距离。
  • 在基于重写的特征上训练二分类器(逻辑回归或 XGBoost)。
  • 通过在多个提示上进行训练,展示对对抗性提示的鲁棒性。

实验结果

研究问题

  • RQ1基于重写的信号(不变性/协变性/不确定性)是否能够在跨领域区分机器文本与人类文本?
  • RQ2这些信号是否在跨不同语言模型和重写提示时具有泛化性,包括黑箱 LLMs?
  • RQ3输入长度如何影响检测性能,方法是否能够抵御试图规避检测的对抗性尝试?
  • RQ4不同重写模型(Ada、Text-Davinci-002、GPT-3.5-turbo)对检测效果的影响?
  • RQ5当测试模型与训练模型不同、处于分布外情形下,该方法是否鲁棒?

主要发现

  • Raidar 在多份数据集上显著提升检测性能,相较于最先进基线,F1 提升高达 29 点。
  • 该方法在检测来自未见或不同生成模型的文本(OOD 场景)时仍然有效,显著提升(最高达到 32 点)。
  • 使用单一重写提示与 GPT-3.5-turbo 可获得强检测性能;更大的重写模型进一步提升结果。
  • 检测在跨域(新闻、创作性写作、学生论文、代码、Yelp、arXiv 摘要)仍然鲁棒,即使提示被定制以规避检测。
  • 较长的输入通常会提高检测性能,即使输入较短(最低十个词)也能达到合理的 F1。
  • 使用多种提示进行训练可以增强对对抗性改写尝试的鲁棒性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。