QUICK REVIEW

[論文レビュー] RTbust: Exploiting Temporal Patterns for Botnet Detection on Twitter

Michele Mazza, Stefano Cresci|arXiv (Cornell University)|Feb 12, 2019

Network Security and Intrusion Detection被引用数 35

ひとこと要約

RTbust は、VAE ベースの特徴抽出と HDBSCAN クラスタリングを用いた、時系列リツイートパターンの教師なし分析により、Twitter のリツイートボットネットを検出します。高い F1 スコアを達成し、ボットネットを暴露します。

ABSTRACT

Within OSNs, many of our supposedly online friends may instead be fake accounts called social bots, part of large groups that purposely re-share targeted content. Here, we study retweeting behaviors on Twitter, with the ultimate goal of detecting retweeting social bots. We collect a dataset of 10M retweets. We design a novel visualization that we leverage to highlight benign and malicious patterns of retweeting activity. In this way, we uncover a 'normal' retweeting pattern that is peculiar of human-operated accounts, and 3 suspicious patterns related to bot activities. Then, we propose a bot detection technique that stems from the previous exploration of retweeting behaviors. Our technique, called Retweet-Buster (RTbust), leverages unsupervised feature extraction and clustering. An LSTM autoencoder converts the retweet time series into compact and informative latent feature vectors, which are then clustered with a hierarchical density-based algorithm. Accounts belonging to large clusters characterized by malicious retweeting patterns are labeled as bots. RTbust obtains excellent detection results, with F1 = 0.87, whereas competitors achieve F1 < 0.76. Finally, we apply RTbust to a large dataset of retweets, uncovering 2 previously unknown active botnets with hundreds of accounts.

研究の動機と目的

OSN におけるグループベースの、教師なしボット検出の必要性を、進化するボットの巧妙さを理由に動機づける。
人間とボットの活動を区別するためにリツイート時系列の分析を提案する。
RTbust を開発し、有益な特徴を自動的に抽出し、ボットネットを識別するためにユーザーをクラスタリングする。

提案手法

各ユーザーのリツイート活動を、参照開始時刻を基準としたリツイートタイムスタンプの時系列として表現する。
スパース性を低減し活動信号を保持するため、改良版ランレングス符号化を用いて時系列を圧縮する。
圧縮系列から、LSTM エンコーダを用いた変分オートエンコーダで固定長の潜在特徴を抽出する。
潜在空間でユーザーをクラスタリングし、HDBSCAN によってボットネットとして密なグループを識別し、ノイズを正当なアカウントとして扱う。
annotated bots/humans を ground truth として、 baselines や最先端技術と比較評価する。

実験結果

リサーチクエスチョン

RQ1完全なタイムラインやグラフに依存せず、リツイート時刻の教師なしでグループベースの分析はボットネットを信頼性高く識別できるか？
RQ2特徴抽出手法の違い（VAE、PCA、TICA）がボットネット検出性能に与える影響は？
RQ3RTbust は監視型検出器や他の教師なし手法と比べてF1、precision、recall、その他の指標でどうなるか？

主な発見

RTbust はボット検出で F1 = 0.87 を達成し、F1 ≤ 0.76 の競合他社より優れている。
VAE ベースの特徴は、PCA や TICA と比較してクラスターリングと検出性能を向上させる。
VAE から得られる潜在特徴が 8 個にも満たない段階でクラスタリング品質を安定させ、検出性能を最大化する。
RTbust は、密集クラスタ内のアカウントをボットとしてラベル付けし、クラスタされていないアカウントを正当と扱うことで協調的なボットグループを識別する。
この手法はリツイート時刻のみを利用するため、全タイムラインやソーシャルグラフを用いずにスケーラブルな分析を可能にする。
このアプローチは、大規模なリツイートデータセットで2つの新たに未知だったアクティブボットネットを暴露する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。