Skip to main content
QUICK REVIEW

[论文解读] Learning Hierarchical Discourse-level Structure for Fake News Detection

Hamid Reza Karimi, Jiliang Tang|arXiv (Cornell University)|Feb 27, 2019
Misinformation and Its Impacts参考文献 38被引用 35
一句话总结

HDSF 自动学习一个分层的话语层级依赖结构,用于对假新闻分类产生结构丰富表示,优于基线。

ABSTRACT

On the one hand, nowadays, fake news articles are easily propagated through various online media platforms and have become a grand threat to the trustworthiness of information. On the other hand, our understanding of the language of fake news is still minimal. Incorporating hierarchical discourse-level structure of fake and real news articles is one crucial step toward a better understanding of how these articles are structured. Nevertheless, this has rarely been investigated in the fake news detection domain and faces tremendous challenges. First, existing methods for capturing discourse-level structure rely on annotated corpora which are not available for fake news datasets. Second, how to extract out useful information from such discovered structures is another challenge. To address these challenges, we propose Hierarchical Discourse-level Structure for Fake news detection. HDSF learns and constructs a discourse-level structure for fake/real news articles in an automated and data-driven manner. Moreover, we identify insightful structure-related properties, which can explain the discovered structures and boost our understating of fake news. Conducted experiments show the effectiveness of the proposed approach. Further structural analysis suggests that real and fake news present substantial differences in the hierarchical discourse-level structures.

研究动机与目标

  • 研究分层话语层级结构是否能区分假新闻与真实新闻。
  • 开发一个端到端框架,在没有标注数据的情况下学习话语依赖关系。
  • 创建具有结构信息的文档表示,以实现有效的假新闻分类。
  • 识别区分假新闻和真实新闻并与连贯性相关的结构相关属性。

提出的方法

  • 用基于单词嵌入得到的 BLSTM 表示表示每个句子。
  • 学习句间依赖概率,通过基于注意力的矩阵 A 和根概率 r 形成话语依赖树。
  • 使用 A 和 r 贪婪地构造一个话语树以获得每个文档的树结构。
  • 从潜在父母和子节点计算结构感知的句子表示 p_j 和 c_j,然后推导出 g_j。
  • 聚合 g_j 以形成结构丰富的文档表示 x,并使用交叉熵损失进行二分类假新闻/真实新闻。
  • 端到端地通过反向传播训练整个框架;注意树构造是事后进行且不参与梯度传播。

实验结果

研究问题

  • RQ1提出的 HDSF 框架是否相较基线在假新闻检测中有所提升?
  • RQ2话语树的哪些结构相关属性区分假新闻与真实新闻,以及它们与连贯性有何关系?

主要发现

方法准确率 (%)
N-grams72.37
LIWC70.26
RST67.68
BiGRNN-CNN77.06
LSTM[w+s]80.54
LSTM[s]73.63
HDSF82.19
  • HDSF 在合并数据集上显著优于基线(82.19% 的准确率对比 LSTM[w+s] 的 80.54%)。
  • 文档结构感知表示比仅内容特征(如 N-grams 或 LIWC)提供更强的区分力。
  • 话语依赖树在三个提议属性上揭示假新闻与真实新闻之间的显著差异,真实新闻显示更高的连贯性。
  • 一种事后贪婪树结构构造方法利用句际概率来组装根节点及父子关系。
  • 训练与开发曲线显示在优化过程中训练误差下降、准确率上升。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。