Skip to main content
QUICK REVIEW

[論文レビュー] Online Human-Bot Interactions: Detection, Estimation, and Characterization

Onur Varol, Emilio Ferrara|arXiv (Cornell University)|Mar 9, 2017
Spam and Phishing Detection被引用数 236
ひとこと要約

公開データからの1,150特徴量を用いてTwitterボットを検出するフレームワークで、高い精度を達成し、ボットの蔓延率を9%〜15%の間で推定する。

ABSTRACT

Increasing evidence suggests that a growing amount of social media content is generated by autonomous entities known as social bots. In this work we present a framework to detect such entities on Twitter. We leverage more than a thousand features extracted from public data and meta-data about users: friends, tweet content and sentiment, network patterns, and activity time series. We benchmark the classification framework by using a publicly available dataset of Twitter bots. This training data is enriched by a manually annotated collection of active Twitter users that include both humans and bots of varying sophistication. Our models yield high accuracy and agreement with each other and can detect bots of different nature. Our estimates suggest that between 9% and 15% of active Twitter accounts are bots. Characterizing ties among accounts, we observe that simple bots tend to interact with bots that exhibit more human-like behaviors. Analysis of content flows reveals retweet and mention strategies adopted by bots to interact with different target groups. Using clustering analysis, we characterize several subclasses of accounts, including spammers, self promoters, and accounts that post content from connected applications.

研究の動機と目的

  • 大規模な公開データとメタデータを用いて、Twitter上のソーシャルボットアカウントを検出するスケーラブルなフレームワークを開発する。
  • データセット、モデル、進化するボットの高度さを跨いで検出精度を評価する。
  • 大規模な英語圏のTwitter人口におけるボット様アカウントの蔓延率を推定する。
  • 人間アカウントとボット様アカウントの間の社会的結節性、情報の流れ、行動クラスタを特徴づける。

提案手法

  • 6つの特徴クラスにまたがるユーザメタデータ、コンテンツ、ネットワーク構造、タイミングから1,150の特徴量を抽出する。
  • 教師あり機械学習分類器(Random Forest、AdaBoost、ロジスティック回帰、Decision Tree)を訓練し、AUCで最良を選択する。Random Forestが0.95 AUCを達成。
  • ボットと人間のアカウントの手動ラベル付けデータセットを用いて訓練データを注釈付け・拡張し、一般化を検証する。
  • ハニーポットボットデータと最近の手動注釈付きアカウントでモデルを評価し、データセット横断の性能と閾値選択を評価する。
  • 手動で注釈付けされたデータのデシルごとに分類精度を最大化してボットスコア閾値を計算する。

実験結果

リサーチクエスチョン

  • RQ1大規模な特徴量主導の教師ありモデルは、Twitter上のボットを人間と正確に見分けることができるか?
  • RQ2ボットの高度さはどのように進化し、それがデータセット間でのモデル性能にどのように影響するか?
  • RQ3大規模な英語話者のTwitter人口におけるボット様アカウントの蔓延率は推定でどの程度か?
  • RQ4人間アカウントとボット様アカウントの間の社会的結びつきと情報フローのパターンは何か?
  • RQ5アカウントの間にどのような行動クラスタが現れ、それぞれのクラスタはどのように特徴づけられるか?

主な発見

  • 大規模特徴量フレームワークは高い検出性能を発揮し、ハニーポットデータでRandom Forestは0.95 AUC。
  • 手動ラベル付けデータでは、低ボットスコアデシルでの精度が90%以上、難易度の高い中間レンジで60–80%、母集団で加重した全体の精度は86%になる。
  • ボット蔓延率は訓練データと閾値選択によって9%〜15%の間と推定される。
  • 人間は主に人間をフォローし、人間にフォローされる一方で、高度なボットも一部存在する。ボットはボット間の相互作用を好み、相互性が低い。
  • クラスタリングは10の行動コホートを明らかにし、注目すべきクラスターにはリクルーター/スパムアカウント、接続アプリからの投稿アカウント、混合ボット/人間(サイボーグ)アカウントが含まれる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。