Skip to main content
QUICK REVIEW

[論文レビュー] Exposing Paid Opinion Manipulation Trolls

Todor Mihaylov, Ivan Koychev|arXiv (Cornell University)|Sep 26, 2021
Topic Modeling参考文献 24被引用数 42
ひとこと要約

この論文は、他者によって trolls とラベル付けされたユーザーで訓練し、有料の troll を対象にテストすることで、有料の意見操作を行う troll を検出することを目的としており、ユーザー活動から派生した大規模な特徴集合を用いて trolls と non-trolls を分類する。

ABSTRACT

Recently, Web forums have been invaded by opinion manipulation trolls. Some trolls try to influence the other users driven by their own convictions, while in other cases they can be organized and paid, e.g., by a political party or a PR agency that gives them specific instructions what to write. Finding paid trolls automatically using machine learning is a hard task, as there is no enough training data to train a classifier; yet some test data is possible to obtain, as these trolls are sometimes caught and widely exposed. In this paper, we solve the training data problem by assuming that a user who is called a troll by several different people is likely to be such, and one who has never been called a troll is unlikely to be such. We compare the profiles of (i) paid trolls vs. (ii)"mentioned" trolls vs. (iii) non-trolls, and we further show that a classifier trained to distinguish (ii) from (iii) does quite well also at telling apart (i) from (iii).

研究の動機と目的

  • オンラインフォーラムで有料の troll を検出する必要性を動機づけ、彼らの行動パターンを理解する。
  • 限定されたラベル付き有料trollデータにもかかわらず、公開されているtrollを活用して検出器を訓練する。
  • 「言及された」troll で訓練されたモデルが、有料 trolls 対 non-trolls にどれだけ一般化するかを評価する。

提案手法

  • 活動履歴(コメント、活動日数、コメントされた publications)からユーザ-featureベクトルを構築する。
  • vote-based, similarity, timing, そして interaction features を含む、非スケール版を含む338のスケール特徴量を開発する。
  • RBFカーネルのSVMを、'mentioned' troll 対 non-trolls データセットで訓練する(C=32, gamma=0.0078125)。
  • 訓練済みモデルを、4名の既知の有料troll(100+ 投稿)対4名の非trollsでテストし、有料trollsへの一般化を評価する。
  • 特徴グループをアブレーションして、検出性能を支える特徴を特定する。

実験結果

リサーチクエスチョン

  • RQ1「言及された」troll で訓練された分類器は、非trolls の中から有料 trolls を識別する generalize に寄与するか?
  • RQ2フォーラムデータで有料 trolls を検出する際、どの特徴グループが最も寄与するか?
  • RQ3投稿数およびtrollの定義(言及された vs 有料)によって、モデルの性能はどのように変化するか?

主な発見

特徴量精度適合率再現率Fスコア
全スケール済み(AS)0.881.000.750.86
AS - 時間 (S)0.751.000.500.67
AS - 投票アップ/ダウン全て(S)0.380.000.000.00
全未スケール0.500.000.000.00
  • すべてのスケール特徴を用いると、 Paid trolls vs non-trolls で精度0.88、適合率1.00、再現率0.75、F-スコア0.86 が最良の全体性能を示す。
  • 時間関連と投票ベースの特徴が重要であり、これらを除外すると適合率/再現率が低下し、投票関連の特徴を除くとゼロとなる。
  • 個別の特徴グループは、曜日、時間関連特徴、勤務時間帯の投稿が顕著に検出に寄与するのに対し、いくつかのグループ(例:返信状態、類似性)は単独では影響が限定的。
  • アブレーション全体を通じて、言及されたtrollで訓練すれば、有料troll(100+ 投稿)のテストは可能だが、投稿数が少ないtroll(約40件未満)では性能が低下する。
  • 集約されたプロフィールは、有料trollがより少ない頻度で投稿するが、平日/勤務時間中に集中して活動し、非trolls に比べコメントへのネガティブ投票が高いことを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。