Skip to main content
QUICK REVIEW

[論文レビュー] Spotting Rumors via Novelty Detection

Yumeng Qin, Dominik Wurzer|arXiv (Cornell University)|Nov 19, 2016
Misinformation and Its Impacts参考文献 4被引用数 27
ひとこと要約

本稿では、信頼できるニュースソースに対する確認されていない情報の特定と、以前に検出されたリムーブに類似する特徴を活用することで、リアルタイムでのフェイクニュース検出を可能にするノベルティベース特徴量と仮想フィードバックを導入する。この手法は、既存のリアルタイム手法と比較して著しく優れた初期検出性能を達成しており、Twitter や 新浪微博 のような高スループットのストリームに対しても定数時間計算が可能である。

ABSTRACT

Rumour detection is hard because the most accurate systems operate retrospectively, only recognizing rumours once they have collected repeated signals. By then the rumours might have already spread and caused harm. We introduce a new category of features based on novelty, tailored to detect rumours early on. To compensate for the absence of repeated signals, we make use of news wire as an additional data source. Unconfirmed (novel) information with respect to the news articles is considered as an indication of rumours. Additionally we introduce pseudo feedback, which assumes that documents that are similar to previous rumours, are more likely to also be a rumour. Comparison with other real-time approaches shows that novelty based features in conjunction with pseudo feedback perform significantly better, when detecting rumours instantly after their publication.

研究の動機と目的

  • フェイクニュースが広がる前に対処することで被害を防ぐために、ソーシャルメディアにおける早期フェイクニュース検出の重要性に対応する。
  • 繰り返しの信号に依存するため、すでに広がってからでなければ検出できない、後向き検出システムの限界を克服する。
  • 将来の情報を使わず、メッセージが公開された瞬間に即座に動作するスケーラブルなリアルタイムソリューションを構築する。
  • 信頼できるニュースを基準として用い、未確認(可能性のあるフェイクニュース)コンテンツを特定するノベルティベース特徴量を導入する。
  • 過去に検出されたフェイクニュースとの類似性を活用する仮想フィードバックを導入し、拡散信号を待たずに早期検出を可能にする。

提案手法

  • ニュースワイヤー記事を信頼できる基準ソースとして用い、文脈的類似性に基づいてソーシャルメディア投稿のノベルティスコアを計算する。
  • k-term ハッシュを用いてニュースのサブドキュメントを表現し、weibos とニューススニペット間のベクトル類似度によりノベルティスコアを算出する。
  • 新しい投稿と以前に検出されたフェイクニュースの最も近いものとのコサイン類似度を測定することで、仮想フィードバックを実装する。
  • 標準的なカテゴリカル特徴量(例:句読点、感情、URL、長さ、ソーシャルメディアマーカー)とノベルティおよび仮想フィードバック特徴量を組み合わせる。
  • すべての特徴量を定数時間・定数空間で計算できるストリーミングアーキテクチャを設計し、大規模なリアルタイム処理を可能にする。
  • ノベルティ特徴量のパフォーマンスを最適化しながら効率性を維持するため、ニュースサブドキュメントに tf-idf 重み付けを適用し、k-term ハッシュを用いる。

実験結果

リサーチクエスチョン

  • RQ1信頼できるニュースソースに対する未確認情報が、早期フェイクニュース検出の信頼できるシグナルとして機能するか?
  • RQ2拡散データを必要とせず、過去に検出されたフェイクニュースとの類似性が、リアルタイム検出性能を向上させられるか?
  • RQ3ノベルティベース特徴量と仮想フィードバックは、既存のリアルタイムベースラインと比較して、公開直後のフェイクニュース検出においてどの程度効果的か?
  • RQ4提案された特徴量は、高スループットのソーシャルメディアストリーム上でリアルタイム処理を維持できるほど十分に効率的に計算可能か?
  • RQ5ノベルティおよび仮想フィードバック特徴量は、拡散に基づく手法と比較して、検出遅延をどの程度短縮できるか?

主な発見

  • ノベルティベース特徴量は、信頼できるニュースソースに存在しない未確認情報の特定により、早期フェイクニュース検出を著しく向上させる。
  • 仮想フィードバックは検出性能を 5.3%(相対値)向上させ、過去のフェイクニュースとの類似性が早期検出精度を向上させることを示している。
  • ノベルティおよび仮想フィードバック特徴量の組み合わせは、すべてのリアルタイムおよび早期検出ベースラインを上回る、即時検出性能を達成する。
  • 単一コアで約 7,000 件の weibos/秒 のスループットを達成しており、平均的な Twitter(5,700 tweets/sec)および 新浪微博(1,200 weibos/sec)のストリームレートを上回っている。
  • k-term ハッシュを用いたノベルティ特徴量では、上位 tf-idf 重み付き語を用いた場合、パフォーマンス損失がわずか 1%(絶対値)にまで抑えられ、高いロバスト性と効率性を示している。
  • 本手法は、拡散信号に依存しないため、ウイルス的拡散を示さない低可視性のフェイクニュースでさえ検出可能であり、これまでは多数の手法が検出できなかった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。