Skip to main content
QUICK REVIEW

[论文解读] RTbust: Exploiting Temporal Patterns for Botnet Detection on Twitter

Michele Mazza, Stefano Cresci|arXiv (Cornell University)|Feb 12, 2019
Network Security and Intrusion Detection被引用 35
一句话总结

RTbust 通过对时间序列转发模式进行无监督分析,结合基于 VAE 的特征提取器和 HDBSCAN 聚类,检测 Twitter 上的转发机器人网络,达到较高的 F1 分数并揭示机器人网络。

ABSTRACT

Within OSNs, many of our supposedly online friends may instead be fake accounts called social bots, part of large groups that purposely re-share targeted content. Here, we study retweeting behaviors on Twitter, with the ultimate goal of detecting retweeting social bots. We collect a dataset of 10M retweets. We design a novel visualization that we leverage to highlight benign and malicious patterns of retweeting activity. In this way, we uncover a 'normal' retweeting pattern that is peculiar of human-operated accounts, and 3 suspicious patterns related to bot activities. Then, we propose a bot detection technique that stems from the previous exploration of retweeting behaviors. Our technique, called Retweet-Buster (RTbust), leverages unsupervised feature extraction and clustering. An LSTM autoencoder converts the retweet time series into compact and informative latent feature vectors, which are then clustered with a hierarchical density-based algorithm. Accounts belonging to large clusters characterized by malicious retweeting patterns are labeled as bots. RTbust obtains excellent detection results, with F1 = 0.87, whereas competitors achieve F1 < 0.76. Finally, we apply RTbust to a large dataset of retweets, uncovering 2 previously unknown active botnets with hundreds of accounts.

研究动机与目标

  • 由于机器人日益复杂,推动在开放社交网络中进行基于群组的无监督机器人检测的需求。
  • 提出对转发时间模式的分析,以区分人类与机器人活动。
  • 开发 RTbust,使其能够自动提取有信息量的特征并对用户进行聚类以识别机器人网络。

提出的方法

  • 将每个用户的转发活动表示为相对于一个参考起始时间的转发时间戳时间序列。
  • 使用改进的游程编码对时间序列进行压缩,以减小稀疏性并保留活跃信号。
  • 使用具有 LSTM 编码器的变分自编码器从压缩后的序列中提取固定长度的潜在特征。
  • 在潜在空间中使用 HDBSCAN 对用户进行聚类,将密集簇视为机器人网络,同时将噪声视为合法账户。
  • 以标注的机器人/人类作为真实标签,对 RTbust 与基线方法和最先进技术进行评估。

实验结果

研究问题

  • RQ1在不依赖完整时间线或图结构的情况下,基于转发时间的无监督、基于群组的分析是否能够可靠地识别机器人网络?
  • RQ2不同特征提取方法(VAE、PCA、TICA)对机器人网络检测性能的影响是什么?
  • RQ3就 F1、精确度、召回率及其他指标而言,RTbust 与有监督检测器及其他无监督方法相比如何?

主要发现

  • RTbust 在机器人检测中的 F1 达到 0.87,优于竞争对手(F1≤0.76)。
  • 基于 VAE 的特征相较于 PCA 和 TICA,在聚类与检测性能上更优。
  • 来自 VAE 的少量潜在特征(仅 8 个)即可稳定聚类质量并最大化检测性能。
  • RTbust 通过将密集簇中的账户标记为机器人并将非簇化账户视为合法账户,来识别协同机器人群组。
  • 该方法仅依赖转发时间戳,使得在没有完整时间线或社交图的情况下也能够进行可扩展分析。
  • 该方法在一个大型转发数据集中发现了两个先前未知的活跃机器人网络。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。