Skip to main content
QUICK REVIEW

[论文解读] Misinformation Has High Perplexity

Nayeon Lee, Yejin Bang|arXiv (Cornell University)|Jun 8, 2020
Misinformation and Its Impacts参考文献 22被引用 25
一句话总结

本文提出了一种无监督的虚假信息辟谣方法,利用大语言模型(LM)在可靠证据引导下的困惑度来检测虚假声明。结果表明,虚假声明的困惑度显著高于真实声明,且在两个新发布的与新冠疫情相关的测试集上,其性能与有监督模型相当,其关键贡献在于通过过滤突显了证据质量的重要性。

ABSTRACT

Debunking misinformation is an important and time-critical task as there could be adverse consequences when misinformation is not quashed promptly. However, the usual supervised approach to debunking via misinformation classification requires human-annotated data and is not suited to the fast time-frame of newly emerging events such as the COVID-19 outbreak. In this paper, we postulate that misinformation itself has higher perplexity compared to truthful statements, and propose to leverage the perplexity to debunk false claims in an unsupervised manner. First, we extract reliable evidence from scientific and news sources according to sentence similarity to the claims. Second, we prime a language model with the extracted evidence and finally evaluate the correctness of given claims based on the perplexity scores at debunking time. We construct two new COVID-19-related test sets, one is scientific, and another is political in content, and empirically verify that our system performs favorably compared to existing systems. We are releasing these datasets publicly to encourage more research in debunking misinformation on COVID-19 and other topics.

研究动机与目标

  • 为解决在新冠疫情等快速演变事件中缺乏标注数据的问题,以实现实时虚假信息检测。
  • 开发一种无需依赖人工标注数据或元信息的无监督方法。
  • 探究基于真实知识的预训练语言模型所产生的困惑度是否可作为判断声明虚假性的可靠指标。
  • 通过证据过滤提升检索到的支持信息质量,从而提高辟谣性能。
  • 发布两个新的、领域特定的测试集,分别针对科学类和政治类新冠疫情声明,以支持未来研究。

提出的方法

  • 使用句子相似度从科学和新闻来源中提取可靠证据。
  • 将提取的证据用于引导预训练语言模型,使其基于真实知识进行推理。
  • 使用引导后的语言模型计算每个声明的困惑度得分,以评估其在证据下的可能性。
  • 应用过滤步骤以去除低质量或噪声证据,提升引导后模型的可靠性。
  • 将困惑度作为虚假性的代理指标:困惑度越高,表示声明越可能是虚假的。
  • 在两个新测试集(科学类与政治类)上评估系统性能,并与现有方法进行比较。

实验结果

研究问题

  • RQ1在无监督设置下,基于真实证据引导的语言模型所产生的困惑度是否能有效区分虚假声明与真实声明?
  • RQ2证据质量如何影响基于困惑度的辟谣系统的性能?
  • RQ3所提出的方法是否在新出现的虚假信息上优于现有无监督或有监督基线方法?
  • RQ4将困惑度作为虚假性指标时,其失效模式是什么,特别是对于语法非标准的声明?
  • RQ5该方法能否在不同领域间泛化,例如科学类声明与政治敏感类声明之间?

主要发现

  • 虚假声明在测试集中表现出显著高于真实声明的困惑度,虚假声明的平均困惑度为178.2–556.2,而真实声明的困惑度低于10。
  • 语言模型辟谣器的性能与有监督基线相当,尤其在科学类测试集中,F1-Macro指标高出11.1%。
  • 证据过滤显著提升了整体性能,凸显了高质量证据在有效辟谣中的关键作用。
  • 模型在科学类声明上的表现优于政治类声明,原因在于学术文献提供的证据质量更高,而新闻来源的证据往往未经验证。
  • 错误分析表明,异常句式和声明中的否定结构可能误导模型,提示需将句子质量与虚假性进行解耦。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。