Skip to main content
QUICK REVIEW

[论文解读] Defending Against Neural Fake News

Rowan Zellers, Ari Holtzman|arXiv (Cornell University)|May 29, 2019
Misinformation and Its Impacts参考文献 35被引用 89
一句话总结

本文介绍 Grover,一个可控文本生成模型,能够生成逼真的神经虚假新闻,并提供一系列判别器以检测此类内容,结果显示生成器也可以是一个有效的检测器,并分析伪迹与伦理释放策略。

ABSTRACT

Recent progress in natural language generation has raised dual-use concerns. While applications like summarization and translation are positive, the underlying technology also might enable adversaries to generate neural fake news: targeted propaganda that closely mimics the style of real news. Modern computer security relies on careful threat modeling: identifying potential threats and vulnerabilities from an adversary's point of view, and exploring potential mitigations to these threats. Likewise, developing robust defenses against neural fake news requires us first to carefully investigate and characterize the risks of these models. We thus present a model for controllable text generation called Grover. Given a headline like `Link Found Between Vaccines and Autism,' Grover can generate the rest of the article; humans find these generations to be more trustworthy than human-written disinformation. Developing robust verification techniques against generators like Grover is critical. We find that best current discriminators can classify neural fake news from real, human-written, news with 73% accuracy, assuming access to a moderate level of training data. Counterintuitively, the best defense against Grover turns out to be Grover itself, with 92% accuracy, demonstrating the importance of public release of strong generators. We investigate these results further, showing that exposure bias -- and sampling strategies that alleviate its effects -- both leave artifacts that similar discriminators can pick up on. We conclude by discussing ethical issues regarding the technology, and plan to release Grover publicly, helping pave the way for better detection of neural fake news.

研究动机与目标

  • 为神经信息误导建模威胁情景并研究对手如何生成现实感强的假新闻。
  • 开发一个可控生成器(Grover),能够生成带元数据的整篇新闻文章,以模拟对抗性情景。
  • 探索检测策略,并评估检测器区分真实新闻与机器生成新闻的能力,包括半监督设置。
  • 分析生成过程中的伪迹(暴露偏差、采样策略等)、这些伪迹被检测器利用,并讨论安全发布伦理。

提出的方法

  • 提出 Grover,一个基于 Transformer 的生成器,在大型 RealNews 语料库上训练,能够生成具有多字段的新闻文章(领域、日期、作者、标题、正文)。
  • 通过将字段的联合分布分解并使用固定字段顺序来建模文章生成,以实现高效采样(2)。
  • 使用字段划分(F1、F2)和交叉熵损失来训练 Grover,以学习具有灵活字段条件的条件生成(3-4)。
  • 探讨解码策略(Nucleus/top-p 采样)以控制生成方差,并研究有助于判别器的伪迹。
  • 在未配对和配对设置下,使用 Grover 作为判别器、GPT-2、BERT 和 FastText 评估判别能力,包括用于现实世界部署的半监督制度。
  • 分析暴露偏差和方差缩减对检测的影响,并衡量 Grover 生成内容的困惑度和人类评判的可信度。

实验结果

研究问题

  • RQ1可控生成器是否能够生成带有丰富元数据的现实感强的神经假新闻?
  • RQ2对于神经假新闻,最有效的检测方法是什么,包括既是生成器又是检测器的情况?
  • RQ3生成伪迹(如暴露偏差和解码方差)如何影响可检测性,应该如何调整解码以实现稳健评估?
  • RQ4发布和使用强大生成模型以防范错误信息的安全与伦理策略是什么?

主要发现

  • 在真实与 Grover 生成内容之间训练的判别器取得高准确率,其中基于 Grover-Mega 的检测器在识别自身生成内容方面约达到 92% 的准确率。
  • 作为判别器的 Grover 在未配对/配对设置中均优于其他模型(BERT、GPT-2、FastText),特别是在与生成器大小匹配时表现更好。
  • 暴露偏差和解码策略(top-p 采样)会产生可检测的伪迹,存在一个使判别困难的 top-p 的甜点区间(大致在 0.94–0.98)。
  • 使用 Grover 来检测 Grover 自身的生成在生成器放大时仍然高度有效,凸显发布强大生成器以协助防御的价值。
  • 半监督设置可以利用丰富的真实新闻数据和有限的生成数据来实现稳健的检测性能,在域内样本稀缺时,弱监督有助于发现。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。