[论文解读] Graph-based Modeling of Online Communities for Fake News Detection
SAFER 构建了用户与文章的异质图,并使用关系型与双曲线图神经网络将社交上下文特征纳入假新闻检测,以在两个领域实现最先进的结果。
Over the past few years, there has been a substantial effort towards automated detection of fake news on social media platforms. Existing research has modeled the structure, style, content, and patterns in dissemination of online posts, as well as the demographic traits of users who interact with them. However, no attention has been directed towards modeling the properties of online communities that interact with the posts. In this work, we propose a novel social context-aware fake news detection framework, SAFER, based on graph neural networks (GNNs). The proposed framework aggregates information with respect to: 1) the nature of the content disseminated, 2) content-sharing behavior of users, and 3) the social network of those users. We furthermore perform a systematic comparison of several GNN models for this task and introduce novel methods based on relational and hyperbolic GNNs, which have not been previously used for user or community modeling within NLP. We empirically demonstrate that our framework yields significant improvements over existing text-based techniques and achieves state-of-the-art results on fake news datasets from two different domains.
研究动机与目标
- 利用在线社区的属性来提升假新闻检测,超越文本及简单传播信号的局限性。
- 提出 SAFER,一种基于图的框架,聚合文章内容、用户分享行为和社交网络结构。
- 系统性比较多种GNN架构,包括关系型与双曲线变体,用于异质社交图。
- 在两个领域多样的数据集上,展示相较文本基线与现有方法的检测性能提升。
提出的方法
- 构建一个两种类型节点的异质图,包含文章节点和用户节点,其中边连接用户与其分享的文章以及用户之间的关注关系。
- 使用CNN或RoBERTa作为文本编码器对文章文本进行编码。
- 对用户/传播图使用多种GNN进行编码(GCN、GAT、GraphSAGE、Relational GCN/Relational GAT、Hyperbolic GCN/GAT)。
- 独立训练编码器;通过归一化均值将每篇文章的用户嵌入聚合成社交上下文向量;与文本嵌入连接后使用逻辑回归进行分类。
- 使用Relational GNN来捕捉图中不同的关系类型;探索Hyperbolic GNN以更好嵌入尺度自由、分层结构。
- 在两个数据集(GossipCop 与 HealthStory)上以70/10/20的训练/验证/测试划分进行评估;与文本基线、社交基线及现有方法进行对比。
实验结果
研究问题
- RQ1是否可以通过建模在线社区与用户-内容分享关系来提升假新闻检测,超越基于文本的方法?
- RQ2关系型与双曲线GNN是否在异质社交图任务中比传统GNN提供额外收益?
- RQ3社交上下文信息如何与文本内容交互,影响跨领域的检测准确性?
- RQ4图的稀疏性与活跃用户选择对 SAFER 的性能有何影响?
- RQ5SAFER 是否对来自高频用户或偏向性分享模式的潜在偏见具有鲁棒性?
主要发现
| 模型 | GossipCop (F1) | HealthStory (F1) | 备注 |
|---|---|---|---|
| CNN | 66.73 | 53.81 | 文本基线(CNN) |
| RoBERTa | 68.55 | 57.54 | 文本基线(RoBERTa) |
| Maj. sharing baseline | 77.19 | 8.20 | 简单的分享基线(GossipCop/HealthStory) |
| SAGE (social baseline) | 87.11 | 43.05 | 基于GNN的社交基线,在无文本的文章上运行 |
| GCN (social) | 88.37 | 44.86 | 传统的GCN基线 |
| GAT (social) | 87.94 | 46.13 | 传统的GAT基线 |
| R-GCN | 89.68 | 46.28 | 关系型GCN变体 |
| R-GAT | 89.21 | 46.89 | 关系型GAT变体 |
| Hy-GCN | 87.45 | 44.90 | 双曲线GCN变体 |
| Hy-GAT | 85.56 | 43.09 | 双曲线GAT变体 |
| SAFER (SAGE) | 93.32 | 58.34 | SAFER 与 SAGE 编码器 |
| SAFER (GCN) | 93.61 | 58.65 | SAFER 与 GCN 编码器 |
| SAFER (GAT) | 93.65 | 58.55 | SAFER 与 GAT 编码器 |
| SAFER (R-GCN) | 94.69 | 61.71 | SAFER 与 Relational GCN(GossipCop 的最佳) |
| SAFER (R-GAT) | 94.53 | 62.54 | SAFER 与 Relational GAT(HealthStory 的最佳) |
| SAFER (Hy-GCN) | 93.64 | 61.81 | SAFER 与 Hyperbolic GCN |
| SAFER (Hy-GAT) | 92.97 | 61.91 | SAFER 与 Hyperbolic GAT |
- SAFER on GossipCop 与 HealthStory 显著优于基于文本的基线和多数分享基线。
- 关系型GNN变体优于传统GNN,凸显在异质图中显式建模关系的价值。
- 在所报道的浅层(2 层)设置中,双曲线GNN与传统GNN表现相当,但在更深的图中显示潜在优势;更丰富的社区建模带来更清晰的类别分离(通过t-SNE可视化)。
- 图的密度与活跃用户选择对性能有敏感影响;在中等稀疏度下,SAFER 依然表现强劲,随着图变得极度稀疏,增益减小。
- GossipCop 由于更大比例的类型-(b) 用户(仅分享为假)以及更明显的社区结构,显示出更强的社交上下文增益;HealthStory 相对较弱。
- 消融研究表明在 HealthStory 上活跃用户约 top ~20K,GossipCop 上约 ~30K 时达到最佳性能;图过于稠密或过于稀疏都会降低性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。