[論文レビュー] Still out there: Modeling and Identifying Russian Troll Accounts on Twitter
本論文は、行動的・言語的・プロフィール特徴を用いて、ツイッター上のロシアのトールアカウントを識別する機械学習モデルを開発した。交差検証では、78.5%の精度と98.9%のAUCを達成した。モデルは、上位ジャーナリストを標的にしたメンションの最大2.6%が、依然として活動中のロシアのトールによって占拠されていることを特定した。これは、2016年の選挙以降も継続的な干渉が行われている可能性を示唆している。
There is evidence that Russia's Internet Research Agency attempted to interfere with the 2016 U.S. election by running fake accounts on Twitter - often referred to as "Russian trolls". In this work, we: 1) develop machine learning models that predict whether a Twitter account is a Russian troll within a set of 170K control accounts; and, 2) demonstrate that it is possible to use this model to find active accounts on Twitter still likely acting on behalf of the Russian state. Using both behavioral and linguistic features, we show that it is possible to distinguish between a troll and a non-troll with a precision of 78.5% and an AUC of 98.9%, under cross-validation. Applying the model to out-of-sample accounts still active today, we find that up to 2.6% of top journalists' mentions are occupied by Russian trolls. These findings imply that the Russian trolls are very likely still active today. Additional analysis shows that they are not merely software-controlled bots, and manage their online identities in various complex ways. Finally, we argue that if it is possible to discover these accounts using externally - accessible data, then the platforms - with access to a variety of private internal signals - should succeed at similar or better rates.
研究の動機と目的
- 公開データを用いて、ロシアのトールアカウントとそれ以外のアカウントを区別できる機械学習モデルの開発。
- 2016年のトールデータで学習したモデルが、現在も活動中のツイッター上のロシアのトールアカウントを検出できるかの検証。
- 自動分類と人間による検証の両方を用いて、モデルの効果性を評価すること。
- 活動中のロシアのトールアカウントが用いるアイデンティティ管理戦略および行動的戦略の理解。
- ソーシャルメディアプラットフォームは、内部信号にアクセスできるため、外部研究者よりも効果的にこのようなアカウントを検出・無効化できるべきである、という主張。
提案手法
- 17万件のコントロールアカウントと2,200件の既知のロシアのトールアカウントを用いて、ロジスティック回帰モデルを学習。
- 言語的パターン(機能語の使用、言語分布)、行動的メトリクス(ツイートおよびリツイートレート)、プロフィールメタデータ(バイオ、プロフィール写真、カバーフォト)を特徴量として抽出。
- 学習済みモデルを、2018年末に著名ジャーナリストをメンションしたアカウントのデータに適用。
- 3名のレビュアーによる人間評価を実施し、プロフィールとバイオの整合性、プロフィール写真の真正性、ツイート内容の攻撃的または政治的性質を評価。
- Botometerを用いて、マークされたアカウントが主に自動化されたボットであるかを評価し、その結果をモデルの予測と比較。
- マークされたアカウントに観察された偽のアイデンティティ戦略(例:偽のバイオ、再利用されたプロフィール写真、大量の政治的トピックに関するツイート)について、オープンコーディングを実施。
実験結果
リサーチクエスチョン
- RQ12016年のロシアのトールアカウントデータで学習した機械学習モデルは、ツイッター上での現在も活動中のロシアのトールアカウントを適切に識別できるか?
- RQ2既知のトールの行動的および言語的パターンは、2019年の活動アカウントにどの程度一般化可能か?
- RQ3モデルがマークしたアカウントは、主に自動化されたボットであるか、それとも洗練されたアイデンティティ管理戦略を用いているか?
- RQ4ツイッター上で高可視性を持つジャーナリストを標的にしたメンションの何パーセントが、依然として疑わしいロシアのトールアカウントによって標的にされているか?
- RQ5外部研究者が公開データのみを用いて活動中のトールアカウントを検出できるか? これは、プラットフォームレベルでの検出能力に何を示唆するか?
主な発見
- ロジスティック回帰モデルは交差検証で78.5%の精度と98.9%のAUCを達成し、トールアカウントと非トールアカウントを区別する上で優れた性能を示した。
- 2018年末に著名ジャーナリストをメンションしたアカウントに適用したところ、3.7%が統計的にロシアのトールである可能性が高いとマークされた。人間レビュアーによる評価では、そのうち約70%が極めて疑わしいと確認された。
- 本研究では、ロシアのトールが高名なジャーナリストを標的にするメンションの2.6%を占拠していると推定しており、継続的な活動を示している。
- モデルがマークしたアカウントは、Botometerによって主にボットとして特定されていなかったため、単純なソフトウェアボットではなく、複雑なアイデンティティ管理戦略を用いていると示唆された。
- 多くのマークされたアカウントでは、バイオとツイート内容に不一致が見られ、関係のないソース(例:アイスランドのレストラン)のプロフィール写真が使用されていた。また、政治的トピックに特化した異常に高いリツイートレートを示していた。
- これらの発見は、ソーシャルメディアプラットフォームが内部信号にアクセスできるため、外部研究者と同等またはそれ以上の割合でこのようなアカウントを検出・無効化できるべきである、という示唆を示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。