[论文解读] MGTAB: A Multi-Relational Graph-Based Twitter Account Detection Benchmark
MGTAB 提供了一个包含 7 种类型的多关系用户图的大型专家标注 Twitter 基准,用于立场和机器人检测,表明基于图的方法优于基于特征的方法,并且多关系有益。
The development of social media user stance detection and bot detection methods rely heavily on large-scale and high-quality benchmarks. However, in addition to low annotation quality, existing benchmarks generally have incomplete user relationships, suppressing graph-based account detection research. To address these issues, we propose a Multi-Relational Graph-Based Twitter Account Detection Benchmark (MGTAB), the first standardized graph-based benchmark for account detection. To our knowledge, MGTAB was built based on the largest original data in the field, with over 1.55 million users and 130 million tweets. MGTAB contains 10,199 expert-annotated users and 7 types of relationships, ensuring high-quality annotation and diversified relations. In MGTAB, we extracted the 20 user property features with the greatest information gain and user tweet features as the user features. In addition, we performed a thorough evaluation of MGTAB and other public datasets. Our experiments found that graph-based approaches are generally more effective than feature-based approaches and perform better when introducing multiple relations. By analyzing experiment results, we identify effective approaches for account detection and provide potential future research directions in this field. Our benchmark and standardized evaluation procedures are freely available at: https://github.com/GraphDetec/MGTAB.
研究动机与目标
- 通过提供高质量的专家标注来解决现有 Twitter 基准在立场与机器人检测方面的局限性。
- 构建一个大型多关系用户图,以实现基于图的账户检测研究。
- 提取并归一化有信息量的用户特征(20 个属性特征和推文特征),以实现稳健建模。
- 证明基于图的方法,尤其是多关系类型,在目标任务上优于基于特征的方法。
- 提供标准化评估流程并公开数据集以便可重复的研究。
提出的方法
- 组装一个大型 Twitter 数据集(超过 155 万用户,约 1.35 亿条推文),并裁剪到核心高质量的 410,199 用户。
- 通过对每位用户的 9 位标注者进行多数投票,获得立场(中立/反对/支持)和机器人状态(人工/机器人)的专家标注。
- 通过信息增益(IG)提取前 20 个最具信息量的属性特征,并用 LaBSE 编码的多语言推文特征进行增补。
- 构建一个简化的用户级异构图,包含 7 种关系类型(关注者、好友、提及、回复、引用、URL 共现、话题标签共现),以实现多关系图建模。
- 将用户特征表示为归一化数值特征的串联与布尔特征的二值化特征的拼接;用 LaBSE 对推文进行编码,并对一个用户的推文取平均。
- 在 Stance 和 Bot 检测任务上,对 MGTAB 与现有数据集,评估一系列基线模型(AB、DT、RF、SVM、GCN、GAT、HGT、S-HGN、BotRGCN、RGT)。
实验结果
研究问题
- RQ1专家标注的立场和机器人标签是否可以在一个单一的、基于图的 Twitter 账户基准中联合嵌入?
- RQ2多关系图是否相较于单一关系或基于特征的方法提升检测性能?
- RQ3同质图神经网络与异质图神经网络在立场和机器人检测上的相对性能如何?
- RQ4训练数据规模和半监督学习中未标注数据的可用性对性能有何影响?
- RQ5哪些关系类型(包括隐含的 URL/话题标签共现)对检测准确性贡献最大?
主要发现
| 任务 | 方法 | 关系 | 单一关系 | 1+2 | 3+4+5 | 1+2+3+4+5+6 | 注:显示的数值对应论文中的表变体 |
|---|---|---|---|---|---|---|---|
| 立场 | GCN | 关注者 | 76.7±0.6 | 76.9±0.6 | 77.1±0.5 | 79.1±0.3 | 基于图的方法在多关系下提升。 |
| 立场 | GAT | 关注者 | 77.0±0.5 | 76.7±0.5 | 77.1±0.4 | 77.9±0.4 | 多关系提升性能。 |
| 立场 | BotRGCN | 关注者 | 79.1±0.3 | 76.1±0.4 | 76.2±0.5 | 79.2±0.5 | 关系型 GNN 在多关系下表现强劲。 |
| 立场 | S-HGN | 关注者 | 81.2±0.2 | 80.8±0.2 | 79.4±0.2 | 81.7±0.2 | 异质建模的高基线。 |
| 立场 | HGT | 关注者 | 79.1±0.1 | 79.6±0.2 | 77.4±0.2 | 78.7±0.1 | 关系型变换器有效。 |
| 机器人 | GCN | 关注者 | 81.2±0.5 | 84.1±0.7 | 84.6±0.3 | 82.5±0.5 | 与关系强相关。 |
| 机器人 | GAT | 关注者 | 81.2±1.5 | 83.0±1.6 | 83.3±2.0 | 78.4±0.9 | 更多关系带来关系增益。 |
| 机器人 | BotRGCN | 关注者 | 83.5±0.5 | 83.2±0.3 | 82.9±0.2 | 87.2±0.2 | 多关系下的出色表现。 |
| 机器人 | S-HGN | 关注者 | 87.5±0.3 | 87.3±0.3 | 87.3±0.3 | 87.9±0.2 | 在各种设定下的领先表现。 |
| 机器人 | HGT | 关注者 | 87.1±0.3 | 87.4±0.4 | 86.5±0.4 | 87.2±0.1 | 强大的多关系建模。 |
- 基于图的方法在立场和机器人检测的基准上通常优于基于特征的方法。
- 异质 GNN 一贯优于同质 GNN,表明对多种关系类型建模的好处。
- 使用多关系在各任务和数据集上普遍优于单一关系。
- MGTAB 的立场和机器人任务在不同模型下达到高精度/ F1,如立场精准度(Acc)在 81.2–85.3 之间(具体模型不同);机器人准确率/ F1 在某些数据集上超过 87%,显示了多关系图的优势。
- 更多关系带来更好的性能,尽管某些隐性关系(如话题标签共现)可能由于高度随机性贡献较小。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。