Skip to main content
QUICK REVIEW

[论文解读] Intrinsic Dimension Estimation for Robust Detection of AI-Generated Texts

Eduard Tulchinskii, Kristian Kuznetsov|arXiv (Cornell University)|Jun 7, 2023
Natural Language Processing Techniques参考文献 54被引用 31
一句话总结

本论文提出基于持续同调的内在维度(PHD)估计器,用于文本样本,并显示人类文本的内在维度高于AI生成文本,从而实现鲁棒、模型与领域无关的检测器。

ABSTRACT

Rapidly increasing quality of AI-generated content makes it difficult to distinguish between human and AI-generated texts, which may lead to undesirable consequences for society. Therefore, it becomes increasingly important to study the properties of human texts that are invariant over different text domains and varying proficiency of human writers, can be easily calculated for any language, and can robustly separate natural and AI-generated texts regardless of the generation model and sampling method. In this work, we propose such an invariant for human-written texts, namely the intrinsic dimensionality of the manifold underlying the set of embeddings for a given text sample. We show that the average intrinsic dimensionality of fluent texts in a natural language is hovering around the value $9$ for several alphabet-based languages and around $7$ for Chinese, while the average intrinsic dimensionality of AI-generated texts for each language is $\approx 1.5$ lower, with a clear statistical separation between human-generated and AI-generated distributions. This property allows us to build a score-based artificial text detector. The proposed detector's accuracy is stable over text domains, generator models, and human writer proficiency levels, outperforming SOTA detectors in model-agnostic and cross-domain scenarios by a significant margin.

研究动机与目标

  • 识别跨领域和跨语言区分人工文本与AI生成文本的不变文本属性。
  • 开发一个低维、计算友好的检测器,能够泛化到看不见的生成模型和采样方法。
  • 展示对领域转移、模型转移和对抗性改动的鲁棒性。
  • 提供多语言数据和代码,以实现复现和推动更多的ATD研究。

提出的方法

  • 通过将标记嵌入表示为固定维度空间中的点云来估计文本样本的内在维数。
  • 使用预训练的 RoBERTa-base(英语)或 XLM-R(多语言)计算上下文化的标记嵌入。
  • 通过增长率分析基于 MST 的寿命,应用持久同调维度(PHD)估计器,通过对数对数回归获得一个维数 d。
  • 对标记嵌入的多个子集进行采样,计算每个子集的 E0^1(Si),并对对数对数对进行线性回归,以估计斜率从而得到 d。
  • 使用 PHD 作为特征训练一个简单的单特征逻辑回归分类器,以区分真实文本与AI生成文本。
  • 在跨领域和跨模型设置中,将 PHD 与基线(MLE、DetectGPT、GPTZero、OpenAI detector、RankGen)进行比较。
(a) AI generated
(a) AI generated

实验结果

研究问题

  • RQ1文本嵌入的内在维数是否可以作为跨域和跨模型的信号来检测AI生成文本?
  • RQ2PHD 在语言、体裁和生成模型之间保持对人类文本与AI文本的分离吗?
  • RQ3在跨域和对抗条件下,PHD 与现有检测器相比如何?
  • RQ4与基线相比,该检测器对域转移的鲁棒性如何,以及对非母语者的偏见是否较小?
  • RQ5将 PHD 应用于文本数据时有哪些实际考虑因素(采样稳定性、计算等)?

主要发现

  • 人工撰写文本在内在维度值附近聚类,欧洲语言约为 9–10,在中文/日文约为 7,而AI生成文本平均上低约 1.5。
  • 基于PHD的检测器在模型无关和跨领域场景中显著优于通用检测器。
  • PHD 对领域转移和跨模型转移表现出鲁棒性,在跨域实验中通常优于基于 RoBERTa 的监督分类器。
  • PHD 对生成模型和采样方法具有不变性,即使在 DIPPER 句意改写攻击下也能保持有效性,与若干基线不同。
  • 在10种语言中,PHD 的 ROC-AUC 值约为 0.71–0.83(从中文到西班牙语的区间),语言特定表现有所不同。
  • 与 OpenAI 和 GPTZero 基线相比,该方法降低了对非母语者的偏见,并在对抗性提示变化下保持较高的检测率。
(b) human written
(b) human written

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。