Skip to main content
QUICK REVIEW

[论文解读] Real or Fake? Learning to Discriminate Machine from Human Generated Text

Anton Bakhtin, Sam Gross|arXiv (Cornell University)|Jun 7, 2019
Topic Modeling参考文献 45被引用 32
一句话总结

本文提出在预训练自回归语言模型的残差空间中训练能量模型(EBM),以区分真实人类生成的文本与机器生成的文本。通过使用生成文本作为负样本,EBM 学习将较低的能量分配给真实文本,从而在多种生成器架构和数据集上实现强大的泛化能力,尤其在更大模型和更长序列上表现更优。

ABSTRACT

Energy-based models (EBMs), a.k.a. un-normalized models, have had recent successes in continuous spaces. However, they have not been successfully applied to model text sequences. While decreasing the energy at training samples is straightforward, mining (negative) samples where the energy should be increased is difficult. In part, this is because standard gradient-based methods are not readily applicable when the input is high-dimensional and discrete. Here, we side-step this issue by generating negatives using pre-trained auto-regressive language models. The EBM then works in the residual of the language model; and is trained to discriminate real text from text generated by the auto-regressive models. We investigate the generalization ability of residual EBMs, a pre-requisite for using them in other applications. We extensively analyze generalization for the task of classifying whether an input is machine or human generated, a natural task given the training loss and how we mine negatives. Overall, we observe that EBMs can generalize remarkably well to changes in the architecture of the generators producing negatives. However, EBMs exhibit more sensitivity to the training set used by such generators.

研究动机与目标

  • 研究能量模型(EBM)在区分真实人类文本与机器生成文本时是否具备良好的泛化能力。
  • 解决在离散、高维文本序列上训练 EBM 时梯度驱动负样本挖掘不可行的挑战。
  • 评估 EBM 在测试时使用不同架构或在不同语料上训练的生成器生成的负样本时的鲁棒性。
  • 探索将 EBM 作为通用文本建模范式(而不仅限于简单似然评分)的可行性。

提出的方法

  • 训练一个能量模型(EBM),使其为真实人类生成的文本分配较低能量,为预训练自回归语言模型生成的文本分配较高能量。
  • 利用预训练语言模型生成负样本,避免在离散序列中进行梯度驱动的负样本挖掘。
  • 使用二元交叉熵损失或排序损失训练 EBM,以优化真实文本与生成文本之间的判别能力。
  • 通过测试不同架构(如 GPT-2 与 BiLSTM)和不同语料训练的生成器所产生的负样本,评估 EBM 的泛化能力。
  • 分析对输入扰动(如词语替换、实体替换)的敏感性,以评估其鲁棒性及分布内与分布外行为。
  • 使用残差能量函数建模真实文本与生成器输出之间的差异,将语言模型视为先验。

实验结果

研究问题

  • RQ1在使用未见过的生成器架构进行测试时,基于真实文本和生成负样本训练的 EBM 是否仍能实现良好泛化?
  • RQ2当测试时的生成器与训练时的生成器在不同语料上训练时,EBM 的泛化性能如何变化?
  • RQ3能量函数在多大程度上学习了生成文本与真实文本的模式?这种学习如何影响其对分布偏移的鲁棒性?
  • RQ4模型规模(架构大小)和生成长度如何影响 EBM 的判别准确率?
  • RQ5能量函数对真实文本中结构扰动的敏感性如何?这揭示了其归纳偏置的哪些特征?

主要发现

  • 当使用三个生成负样本中最差的一个时,EBM 在真实/虚假文本检测任务中仍能达到高达 84.6% 的判别准确率,表现出优异性能。
  • EBM 在不同生成器架构(如 GPT-2 与 BiLSTM)之间表现出极强的泛化能力,表明其对架构变化具有鲁棒性。
  • 当测试时的生成器在与训练时不同的语料上训练时,性能显著下降,凸显了对数据分布的敏感性。
  • 能量函数在序列开头和结尾对扰动更敏感,这些位置通常是生成器输出与真实文本差异最大的区域。
  • EBM 会为随机或分布外文本分配较低能量,表明其学习到了识别非生成模式的能力,但该行为并非始终可靠。
  • 能量函数对模型规模和生成长度更具鲁棒性:更大的模型和更长的序列能提升判别性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。