[论文解读] TwiBot-22: Towards Graph-Based Twitter Bot Detection
TwiBot-22 引入了一个大规模、异构图为基础的 Twitter 机器人检测基准和评估框架,并重新实现并对 9 个数据集中的 35 个基线方法进行了基准评估。
Twitter bot detection has become an increasingly important task to combat misinformation, facilitate social media moderation, and preserve the integrity of the online discourse. State-of-the-art bot detection methods generally leverage the graph structure of the Twitter network, and they exhibit promising performance when confronting novel Twitter bots that traditional methods fail to detect. However, very few of the existing Twitter bot detection datasets are graph-based, and even these few graph-based datasets suffer from limited dataset scale, incomplete graph structure, as well as low annotation quality. In fact, the lack of a large-scale graph-based Twitter bot detection benchmark that addresses these issues has seriously hindered the development and evaluation of novel graph-based bot detection approaches. In this paper, we propose TwiBot-22, a comprehensive graph-based Twitter bot detection benchmark that presents the largest dataset to date, provides diversified entities and relations on the Twitter network, and has considerably better annotation quality than existing datasets. In addition, we re-implement 35 representative Twitter bot detection baselines and evaluate them on 9 datasets, including TwiBot-22, to promote a fair comparison of model performance and a holistic understanding of research progress. To facilitate further research, we consolidate all implemented codes and datasets into the TwiBot-22 evaluation framework, where researchers could consistently evaluate new models and datasets. The TwiBot-22 Twitter bot detection benchmark and evaluation framework are publicly available at https://twibot22.github.io/
研究动机与目标
- 解决缺乏具有丰富异构图的大规模基于图的 Twitter 机器人检测数据集的问题。
- 提供一个高质量的基准,通过弱监督提升注释准确性。
- 在多个数据集上重新实现并公平基准测试 35 个基线方法,以实现公平比较和进展跟踪。
- 展示基于图的方法的价值,并为未来研究建立评估框架。
提出的方法
- 两阶段数据收集:多样性感知的 BFS 构建具有 4 种实体类型和 14 种关系类型的大型异构 Twitter 图。
- 通过整合用户、推文、名单、话题标签以及额外关系来构建异构图。
- 用于注释的弱监督:对 1,000 个用户的专家标注、来自多模型的噪声标注,以及基于 Snorkel 的标签去噪以产生高质量标签。
- 重新实现 35 个有代表性的基线,覆盖基于特征、基于文本和基于图的方法。
- 对 9 个数据集(包含 TwiBot-22)进行全面评估,每个模型进行五次运行以评估性能和变异性。
- 通过消融(从基于图的模型中移除图组件)分析图结构的影响。
- 通过在一个子社区上训练并在其他子社区上测试来评估未见数据的表现的泛化研究。
实验结果
研究问题
- RQ1与现有数据集相比,大规模异构图如何改进 Twitter 机器人检测?
- RQ2在多样化数据集中,基于图的方法是否始终优于基于特征和基于文本的方法?
- RQ3移除图组件对基于图的模型性能有何影响?
- RQ4机器人检测模型对未见 Twitter 子社区和数据分布的泛化能力如何?
- RQ5一个统一的评估框架是否能促进基于图的 Twitter 机器人检测的公平比较与未来改进?
- RQ6弱监督在大规模机器人标注中能在哪些方面提升注释质量?
主要发现
- TwiBot-22 迄今建立了最大的基于图的 Twitter 机器人检测基准,拥有 92,932,326 个节点和 170,185,937 条边。
- 该异构图包含 4 种实体类型和 14 种关系类型,提供比以往数据集更丰富的结构。
- 基于图的基线在各数据集上通常优于基于特征和基于文本的方法;在 TwiBot-20 和 TwiBot-22 上前5名模型为基于图的方法。
- TwiBot-22 的注释质量显著更高(测试集专家标注准确率 90.5%),高于 TwiBot-20 的大约 80%。
- 泛化研究表明基于图的方法(如 BotRGCN、RGT)在未见数据上表现更好,表明图有助于泛化。
- 从基于图的模型中移除图组件会降低性能,图神经网络对图结构呈现显著敏感性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。