Skip to main content
QUICK REVIEW

[论文解读] MAGE: Machine-generated Text Detection in the Wild

Yafu Li, Qintong Li|arXiv (Cornell University)|May 22, 2023
Topic Modeling被引用 9
一句话总结

本论文构建了一个用于机器撰写文本检测的野外测试平台,覆盖多样领域和多种LLMs,基准评测若干检测器,并显示以监督的基于PLM的方法最强,且通过使用一个极小的领域内样本进行边界调整可提升对分布外的检测。

ABSTRACT

Large language models (LLMs) have achieved human-level text generation, emphasizing the need for effective AI-generated text detection to mitigate risks like the spread of fake news and plagiarism. Existing research has been constrained by evaluating detection methods on specific domains or particular language models. In practical scenarios, however, the detector faces texts from various domains or LLMs without knowing their sources. To this end, we build a comprehensive testbed by gathering texts from diverse human writings and texts generated by different LLMs. Empirical results show challenges in distinguishing machine-generated texts from human-authored ones across various scenarios, especially out-of-distribution. These challenges are due to the decreasing linguistic distinctions between the two sources. Despite challenges, the top-performing detector can identify 86.54% out-of-domain texts generated by a new LLM, indicating the feasibility for application scenarios. We release our resources at https://github.com/yafuly/MAGE.

研究动机与目标

  • 在现实、源未知的设置下,在多领域和多模型之间推动健壮的深度伪造文本检测。
  • 创建一个大型、多样的野外测试平台,将人类撰写文本与来自多种LLM的机器生成文本配对。
  • 在域内与域外条件下评估常见检测方法,以理解泛化差距。
  • 调查影响检测边界与性能的语言学和困惑度相关偏差。
  • 就改进现实世界检测器部署与评估提供实际建议。

提出的方法

  • 使用三种提示类型(continuation、topical、specified)构建一个包含10个人类撰写数据集的野外大规模测试平台,以及来自27个LLM的机器生成文本。
  • 对一个基于Longformer的PLM分类器进行微调,并添加用于检测任务的分类头。
  • 与基于特征的检测器(FastText、GLTR)以及一个零-shot检测器(DetectGPT)进行比较。
  • 在六个域内分布测试平台(野外程度递增)和两个域外场景(未见领域/模型)下评估检测器。
  • 以AvgRec(average recall)作为主指标,AUROC作为辅助指标。

实验结果

研究问题

  • RQ1在人类撰写与机器生成文本在主题和领域上是否存在固有差异,而不考虑内容?
  • RQ2在野外设置中,检测方法是否能在不访问源LLM的情况下识别机器生成文本?
  • RQ3检测器对未见领域或未见模型家族的泛化能力如何?
  • RQ4哪些实际调整(如决策边界调优)能改善域外检测?

主要发现

  • 基于PLM的检测器在域内设置中始终胜过其他方法,达到较高的AvgRec和AUROC。
  • 当面对跨域或跨模型数据时,检测器性能下降,在域外条件下AvgRec和AUROC出现显著下降。
  • DetectGPT和GLTR在评分模型与假文本来源对齐时表现强劲,但在未见模型或域上其性能会崩溃。
  • Longformer在跨域/跨模型设置中总体性能最强,在许多情况下AvgRec接近90%,在某些域内设置AUROC接近0.99。
  • PLM-based检测器存在困惑度偏差,其中低困惑度文本更易被误判为机器生成,高困惑度文本更易被认定为人类撰写,影响决策边界。
  • 使用0.1%的域内数据对决策边界进行微小再选择可显著提升域外AvgRec(例如高达+13.38%)。
  • 更长的文本提高检测准确性,支持“文本越多,检测信号越多”的直觉。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。