Skip to main content
QUICK REVIEW

[论文解读] Fake News Detection in Social Media using Graph Neural Networks and NLP Techniques: A COVID-19 Use-case

Abdullah Hamid, Nasrullah Shiekh|arXiv (Cornell University)|Nov 30, 2020
Misinformation and Its Impacts参考文献 10被引用 23
一句话总结

本文提出了一种混合方法,用于在2019冠状病毒病疫情期间检测社交媒体中的虚假新闻,结合词袋模型(BoW)、BERT嵌入和图神经网络(GNNs),以分析推文文本和转发网络结构。在二元分类中,F1得分为0.693,在基于结构的检测中AUC-ROC为0.95,表明将自然语言处理与基于图的方法相结合在识别5G及其他阴谋论相关虚假信息方面具有显著效果。

ABSTRACT

The paper presents our solutions for the MediaEval 2020 task namely FakeNews: Corona Virus and 5G Conspiracy Multimedia Twitter-Data-Based Analysis. The task aims to analyze tweets related to COVID-19 and 5G conspiracy theories to detect misinformation spreaders. The task is composed of two sub-tasks namely (i) text-based, and (ii) structure-based fake news detection. For the first task, we propose six different solutions relying on Bag of Words (BoW) and BERT embedding. Three of the methods aim at binary classification task by differentiating in 5G conspiracy and the rest of the COVID-19 related tweets while the rest of them treat the task as ternary classification problem. In the ternary classification task, our BoW and BERT based methods obtained an F1-score of .606% and .566% on the development set, respectively. On the binary classification, the BoW and BERT based solutions obtained an average F1-score of .666% and .693%, respectively. On the other hand, for structure-based fake news detection, we rely on Graph Neural Networks (GNNs) achieving an average ROC of .95% on the development set.

研究动机与目标

  • 检测2020年初与2019冠状病毒病及5G阴谋论相关的Twitter数据中的虚假信息。
  • 通过集成采样和后期融合技术,解决虚假新闻数据集中类别不平衡的问题。
  • 评估基于自然语言处理的模型(BoW和BERT)在基于文本的虚假新闻分类中的有效性。
  • 探索图神经网络(GNNs)在利用转发网络拓扑结构进行基于结构的虚假新闻检测中的应用。
  • 整合文本信号与结构信号,以更有效地识别虚假信息传播者。

提出的方法

  • 基于文本的方法使用BoW和BERT嵌入,文本通过去除标点符号、URL、表情符号和停用词进行预处理。
  • 在BoW特征上训练朴素贝叶斯分类器,而在BERT生成的词嵌入上使用逻辑回归。
  • 通过将多数类划分为N个部分并训练N个模型来缓解类别不平衡问题,随后通过多数投票或得分相加实现后期融合。
  • 对于基于结构的检测,GNN通过k跳邻域聚合学习节点表示,使用SUM和MEAN池化操作。
  • 通过图READOUT获取图级表示,最终模型使用1000个周期、0.01的初始学习率和0.3的dropout率进行训练。
  • 通过在10%保留的测试集上计算AUC-ROC评估模型,结果在图结构上表现出优异的判别性能。

实验结果

研究问题

  • RQ1在数据不平衡的情况下,基于BoW和BERT的模型能否有效检测与2019冠状病毒病相关的5G及其他阴谋论虚假信息?
  • RQ2对重采样数据训练的多个模型进行后期融合,是否能提升基于文本的虚假新闻检测性能?
  • RQ3图神经网络能否有效分类转发网络结构,以区分5G及其他阴谋论虚假信息?
  • RQ4不同的融合策略(多数投票与得分相加)对集成模型在虚假新闻检测中的性能有何影响?
  • RQ5社交网络中的结构模式能否作为识别虚假信息传播者的可靠指标?

主要发现

  • 在开发集上,基于BoW的方法在三元分类中F1得分为0.606,而基于BERT的模型F1得分为0.566。
  • 在二元分类中,BoW和BERT模型的平均F1得分分别为0.666和0.693,优于三元分类结果。
  • 基于结构的GNN模型在开发集上平均AUC-ROC达到0.95,表明其在图级分类中具有强大的判别能力。
  • 表现最佳的运行(Run 4)采用BoW与多数投票策略,F1得分为0.693,测试集AUC-ROC为0.3944。
  • 结果表明,不同类型的阴谋论在转发网络中的结构模式存在显著差异,使得GNN能够有效检测。
  • 后期融合策略,尤其是多数投票,显著提升了单个模型的性能,尤其在处理类别不平衡问题方面表现突出。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。