Skip to main content
QUICK REVIEW

[論文レビュー] In a World That Counts: Clustering and Detecting Fake Social Engagement at Scale

Yixuan Li, Óscar Martínez|arXiv (Cornell University)|Dec 17, 2015
Spam and Phishing Detection参考文献 58被引用数 39
ひとこと要約

本稿では、ユーザーのエンゲージメント行動を時系列グラフとしてモデル化し、局所スペクトルクラスタリングを用いて既知のスパム投稿者シードを拡張することで、YouTubeにおける偽のソーシャルエンゲージメントをスケーラブルに検出する半教師あり手法Leasを提案する。Leasは手動レビューで98%の正確性を達成し、最先端手法であるCopyCatchよりも10倍速く動作する。現在、Googleでは本手法を活用して大規模に偽コメントを検出・削除している。

ABSTRACT

How can web services that depend on user generated content discern fake social engagement activities by spammers from legitimate ones? In this paper, we focus on the social site of YouTube and the problem of identifying bad actors posting inorganic contents and inflating the count of social engagement metrics. We propose an effective method, Leas (Local Expansion at Scale), and show how the fake engagement activities on YouTube can be tracked over time by analyzing the temporal graph based on the engagement behavior pattern between users and YouTube videos. With the domain knowledge of spammer seeds, we formulate and tackle the problem in a semi-supervised manner --- with the objective of searching for individuals that have similar pattern of behavior as the known seeds --- based on a graph diffusion process via local spectral subspace. We offer a fast, scalable MapReduce deployment adapted from the localized spectral clustering algorithm. We demonstrate the effectiveness of our deployment at Google by achieving an manual review accuracy of 98% on YouTube Comments graph in practice. Comparing with the state-of-the-art algorithm CopyCatch, Leas achieves 10 times faster running time. Leas is actively in use at Google, searching for daily deceptive practices on YouTube's engagement graph spanning over a billion users.

研究の動機と目的

  • 従来のテキストベースのスパムフィルタが検出できない、繰り返し的で内容の薄いコメント(例:'cool' や 'yeah')など、洗練された非自然なコメントを検出すること。
  • 自動化やマーケットプレイスを介して人工的に増幅されたが、本物のユーザー行動を模倣する共同スパムキャンペーンを同定する課題に対処すること。
  • 10億人を超えるユーザーを含むYouTubeの巨大グラフにスケーリングしながら、高い正確性と低い誤検出率を維持すること。
  • グラフ拡散を用いたシード拡張により、既存の不正検出システムの検出範囲を自動で拡張すること。
  • リアルタイムでの誤ったエンゲージメントパターンの検出が可能な、生産環境向けで分散処理可能なソリューション(MapReduce経由でのデプロイ)を提供すること。

提案手法

  • ノードをユーザー、エッジを短時間ウィンドウ内に同じ動画に対してコメントしたような共通エンゲージメントイベントとして定義する時系列エンゲージメントグラフを構築する。
  • 既知のスパム投稿者シードを初期点として、類似した行動パターンを示す不審なユーザークラスタを特定するための局所スペクトルクラスタリングを実行する。
  • シードノードの近傍でのみクラスタ拡張を優先する局所スペクトル拡散プロセスを適用し、効率性と関連性を向上させる。
  • MapReduce向けに局所スペクトルクラスタリングアルゴリズムを変更し、10億ノード規模のグラフ上で分散処理を可能にし、スケーラブルな処理を実現する。
  • 共通エンゲージメント強度、月間活動量、コメント類似度といった行動特徴を活用してグラフ構造を定義し、拡散を誘導する。
  • 信頼度しきい値に基づき、二段階の削除処理(エンゲージメントレベルの削除(ソフトペナルティ)とアカウントレベルの停止(ハードペナルティ))を実装したパイプラインを生産環境にデプロイする。

実験結果

リサーチクエスチョン

  • RQ1従来のテキストベース手法が失敗するような、繰り返し的で明白でない偽のソーシャルエンゲージメント(例:'cool' や 'yeah' のような繰り返しで内容の薄いコメント)は、どのように検出可能か?
  • RQ2既知のスパム投稿者シードを用いた半教師ありアプローチは、YouTubeのコメントネットワークのような大規模で現実世界の社会的グラフに対しても、効果的に検出範囲を拡張できるか?
  • RQ3分散環境下で100億規模のグラフに適用された局所スペクトルクラスタリング法の性能とスケーラビリティはどの程度か?
  • RQ4グラフベースの検出手法は、CopyCatchのような最先端手法と比較して、正確性と速度の面で優れているか?
  • RQ5共通エンゲージメント強度や時間的同期性といった行動パターンは、どの程度協働スパムキャンペーンを明らかにできるか?

主な発見

  • Leasは、偽YouTubeコメントの検出において手動レビューで98%の正確性を達成し、悪意あるアカウントの高精度な同定を示した。
  • Leasは、'i love pets' や 'yeah' といった同一コメントを複数の動画に投稿する15件のアカウントを検出しており、協働スパムクラスタの存在を確認した。
  • Leasは、最先端手法であるCopyCatchよりも平均10倍速く動作し、大規模な生産環境での毎日の運用に適している。
  • アルゴリズムは、より洗練された、明確なスパム的特徴が少ない「Tier IIアカウント」をも効果的に同定した。これは、進化するスパムパターンを検出できる能力を裏付けた。
  • 2015年8月6日から13日までのYouTubeコメントグラフへのLeasのデプロイでは、安定した日次検出量が確認され、主にエンゲージメントレベルの削除がペナルティとして適用されており、安定的かつスケーラブルな運用が可能であることを示した。
  • 本手法は、既知のシードを越えて検出範囲を拡大し、内部密度(0.7以上)が極めて高いアカウントクラスタを同定した。これは、クラスタ拡張戦略の有効性を検証した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。