QUICK REVIEW

[論文レビュー] Russian Troll Account Classification with Twitter and Facebook Data

Dominic Lewinski, Rashidul Hasan|arXiv (Cornell University)|Jan 1, 2019

Spam and Phishing Detection参考文献 1被引用数 2

ひとこと要約

本研究では、NLPおよびトピックモデリングを用いて、TwitterおよびFacebookのデータを分析し、ロシアのトロールアカウントを分類する。プラットフォーム間のコンテンツカテゴリを比較した結果、Twitterの『左トロール』や『右トロール』といったカテゴリは、Facebook広告のトピックに直接対応しないことが判明し、各プラットフォームで異なる偽情報戦略が用いられていることが示唆された。特にFacebook広告は、トレンドニュースやソーシャルメディアのエンゲージメントに基づいて主に運営されている。

ABSTRACT

In this analysis, we work with the data set that was compiled by Darren Linvill and Patrick Warren, along with a representative sample of Facebook ads that were released by the House Intelligence Committee Minority. The goal of this analysis is to use the categories defined by Linvill and Warren in the Twitter data and investigate if these categories exist in Facebook ads. This begin to give us insights to the tactics used between the two social media services. Further, we try to replicate Linvill and Warren's original categorization of the Twitter data. Lastly, we investigate what categories may exist in the Facebook data.

研究の動機と目的

LinvillとWarrenが定義したTwitterアカウントカテゴリが、Facebook広告に存在するかどうかを調査すること。
NLPおよび機械学習を用いて、LinvillとWarrenのTwitterアカウント分類を再現すること。
コンテンツパターンに基づいて、Facebook広告データに新たなカテゴリが存在するかを同定すること。
コンテンツ分析を用いて、TwitterとFacebookにおける偽情報戦略の違いを比較すること。

提案手法

TwitterおよびFacebookのテキストデータをクリーニングおよび前処理するために、NLP技術を用い、URL、標点符号、ストップワードを除去した。
両方のプラットフォームのコンテンツにおける潜在的テーマを特定するために、LDA（潜在ディリクレ配分）トピックモデリングを適用した。
Twitterデータから代表度が低いカテゴリ（商業、非英語、不明）を除外し、Facebookデータの可用性に合わせた。
語のクラウドおよびトピック可視化を用いて、発見されたトピックの解釈とラベル付けを行った。
計算上の制限によりランダムフォレストの使用が不可能であったため、分類にSVM（サポートベクターマシン）を採用した。
Rの'pdftools'パッケージを用いて、Facebook広告のPDFからテキストを抽出した。一部の内容がぼかし処理や完全に隠蔽されている場合を除いた。

実験結果

リサーチクエスチョン

RQ1Twitterアカウントカテゴリ（例：左トロール、右トロール、ニュースフィード）は、Facebook広告データに存在するか？
RQ2元のTwitter分類が、NLPおよびトピックモデリングを用いて正しく再現可能か？
RQ3Twitterとは異なり、Facebook広告データに新たに出現するか、特徴的なカテゴリは何か？
RQ4コンテンツおよびトピック構造に基づいて、TwitterとFacebookにおける偽情報戦略の違いは何か？

主な発見

特に『左トロール』や『右トロール』といったTwitterカテゴリは、Facebook広告のトピックに直接対応せず、プラットフォーム固有の戦略が用いられていることが示唆された。
Facebook広告は主に現在の出来事やトレンドトピックに基づいており、『家族』、『トレンド』、『ポップカルチャー』、『ネガティブニュース』、『ヒラリー反対』、『ニュース』といったトピックに分類された。
LDAにより、Facebookデータに6つの明確なトピックが特定され、『トレンド』および『ポップカルチャー』のトピックは、Twitterの『左トロール』および『右トロール』のテーマに近く、類似していた。
Facebookデータにおける『ネガティブニュース』および『ニュース』トピックは互いに明確に異なるため、Twitterの単一の『ニュースフィード』カテゴリとは異なり、より洗練された戦略が用いられていることが示唆された。
Facebookデータにおける最適なトピック数は10であったが、これらは解釈が困難であり、元の6つのTwitterカテゴリをはるかに超える複雑性を示していた。
SVMは満足のいく分類結果を達成したが、RとopenMPIの計算制限のため、ランダムフォレストは使用を見送った。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。