Skip to main content
QUICK REVIEW

[論文レビュー] Battling the Internet Water Army: Detection of Hidden Paid Posters

Cheng Chen, Kui Wu|arXiv (Cornell University)|Nov 18, 2011
Spam and Phishing Detection参考文献 14被引用数 52
ひとこと要約

本稿では、実世界のウェブデータを用いた行動的および意味的分析を組み合わせることで、隠れた有料オンライン投稿者、すなわち「インターネット水軍」とも呼ばれる人物を特定するハイブリッド検出システムを提案する。非意味的行動特徴と意味的類似度分析を組み合わせたSVM分類器を用いることで、ソウフー社の実データセット上で95.24%の精度、73.17%の再現率、82.76%のF-measure、88.79%の正答率を達成し、検出性能が顕著に向上した。

ABSTRACT

We initiate a systematic study to help distinguish a special group of online users, called hidden paid posters, or termed "Internet water army" in China, from the legitimate ones. On the Internet, the paid posters represent a new type of online job opportunity. They get paid for posting comments and new threads or articles on different online communities and websites for some hidden purposes, e.g., to influence the opinion of other people towards certain social events or business markets. Though an interesting strategy in business marketing, paid posters may create a significant negative effect on the online communities, since the information from paid posters is usually not trustworthy. When two competitive companies hire paid posters to post fake news or negative comments about each other, normal online users may feel overwhelmed and find it difficult to put any trust in the information they acquire from the Internet. In this paper, we thoroughly investigate the behavioral pattern of online paid posters based on real-world trace data. We design and validate a new detection mechanism, using both non-semantic analysis and semantic analysis, to identify potential online paid posters. Our test results with real-world datasets show a very promising performance.

研究の動機と目的

  • 中国では「インターネット水軍」とも呼ばれる、一括して投稿することで世論を操作する隠れた有料オンライン投稿者を体系的に調査・検出すること。
  • 実世界のトレースデータを用いて、有料投稿者の組織的構造および行動パターンを同定・検証すること。
  • 非意味的行動特徴と意味的分析を統合した検出メカニズムを構築し、精度を向上させること。
  • 中国の大手ウェブサイトから得た実データセットを用いて、検出システムの有効性を評価すること。
  • 今後のオンライン影響操作およびスパム検出分野の研究基盤を提供すること。

提案手法

  • 有料投稿者活動が疑われる高名目な社会的出来事の時期に、中国の大手ウェブサイトから実世界のデータセットを収集した。
  • 投稿頻度、投稿時刻、アカウント年数といった非意味的行動パターンを分析し、有料投稿者に関連する異常を同定した。
  • 複数の投稿にわたってほぼ同一または微細に編集されたコメントが繰り返し現れるという特徴を捉えるために、意味的類似度分析手法を設計した。これは、一括された有料活動の特徴である。
  • 意味的特徴をサポートベクターマシン(SVM)分類器に統合し、検出性能を向上させた。
  • 段階的な評価プロセスを用い、意味的分析を追加する前後で正答率を比較することで、その影響を定量化した。
  • システムの妥当性をソウフー社のデータセットで検証し、意味的特徴の導入により顕著な性能向上が確認された。

実験結果

リサーチクエスチョン

  • RQ1オンライン有料投稿者の特徴的な行動パターンは何か。また、正当なユーザーとはどのように異なるか。
  • RQ2非意味的行動分析のみで有料投稿者を検出することはどの程度有効か。
  • RQ3コメント内容の意味的分析は、検出精度をどの程度向上させるか。
  • RQ4行動的特徴と意味的特徴を組み合わせたハイブリッドモデルは、単一の特徴タイプに依存するモデルを上回る性能を発揮できるか。
  • RQ5有料投稿者ネットワークの組織的構造は何か。また、それは検出戦略にどのように影響を与えるか。

主な発見

  • SVM分類器に意味的分析を統合することで検出性能が顕著に向上し、F-measureが75.6%から82.76%に上昇した。
  • 最終的な検出モデルは、ソウフー社のデータセット上で95.24%の精度、73.17%の再現率、82.76%のF-measure、88.79%の正答率を達成した。
  • 有料投稿者は頻繁に非常に類似した、またはほぼ同一のコメントを微細な編集を加えて繰り返し投稿する傾向があり、これは意味的分析によって効果的に捉えられた。
  • 非意味的行動特徴のみでは強力なベースラインを提供したが、意味的分析が、繊細で一括された投稿行動を区別する上で不可欠であった。
  • 本研究では、複数のウェブサイトにまたがる一貫した投稿パターンを示す、構造的かつ地下的な有料投稿者ネットワークの存在を確認した。
  • 結果から、意味的類似度は、一括されたオンラインプロパガンダ活動を検出する強力で信頼性の高い特徴であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。