[論文レビュー] Learning Reporting Dynamics during Breaking News for Rumour Detection in Social Media
この論文では、イベント内の報告ダイナミクスを活用して、ツイートをクエリすることに依存せずに breaking-news の Twitter ストリームで噂を検出するための逐次 CRF ベースのアプローチを提案します。 Zhao et al. の enquiries ベースの方法を含む、最先端手法および非逐次ベースラインを上回ります。
Breaking news leads to situations of fast-paced reporting in social media, producing all kinds of updates related to news stories, albeit with the caveat that some of those early updates tend to be rumours, i.e., information with an unverified status at the time of posting. Flagging information that is unverified can be helpful to avoid the spread of information that may turn out to be false. Detection of rumours can also feed a rumour tracking system that ultimately determines their veracity. In this paper we introduce a novel approach to rumour detection that learns from the sequential dynamics of reporting during breaking news in social media to detect rumours in new stories. Using Twitter datasets collected during five breaking news stories, we experiment with Conditional Random Fields as a sequential classifier that leverages context learnt during an event for rumour detection, which we compare with the state-of-the-art rumour detection system as well as other baselines. In contrast to existing work, our classifier does not need to observe tweets querying a piece of information to deem it a rumour, but instead we detect rumours from the tweet alone by exploiting context learnt during the event. Our classifier achieves competitive performance, beating the state-of-the-art classifier that relies on querying tweets with improved precision and recall, as well as outperforming our best baseline with nearly 40% improvement in terms of F1 score. The scale and diversity of our experiments reinforces the generalisability of our classifier.
研究の動機と目的
- Breaking-News の Twitter タイムラインにおける噂と非噂のデータ収集およびアノテーション手法を開発する。
- 前の報告からのコンテキストを用いる逐次学習アプローチを提案し、リアルタイムのツイートで噂を検出する。
- CRFを非逐次ベースラインおよび Zhao et al. の enquiry-based ベースラインと比較評価し、複数のブレイキングニュースイベントに渡って評価する。
提案手法
- 記者主導の噂/非噂のアノテーションを伴う5つのブレイキングニュースの Twitter データセットを収集する。
- 各ツイートの文脈としてイベントダイナミクスを捉えるため、ツイートを線形鎖 Conditional Random Fields (CRF) を用いて系列化する。
- CRFを最大エントロピー(非逐次)および Zhao et al. の enquiry-based ベースラインと比較する。
- 2つの特徴量セットを使用する: content-based features(Word2Vec、POS、句読点とカウント)と social features(著者メタデータ)。
- 各フォールドが4つのイベントで学習し、5番目をテストする5分割交差検証で評価し、マイクロ平均指標を報告する。
実験結果
リサーチクエスチョン
- RQ1前のツイートからの文脈は、 breaking-news のタイムラインでの噂検出精度をツイート単独の分類器より向上させるか。
- RQ2逐次モデル(CRF)は、非逐次分類器および最先端の enquiry-based 法と比較して、複数イベントにわたる噂検出で上回るか。
- RQ3どの特徴量セット(内容ベース vs. ソーシャル vs. 組み合わせ)が噂検出性能を最大化するか。
- RQ4異なるブレイキングニュースイベントや報道の段階をまたいでアプローチはどれだけ頑健か。
主な発見
- 内容ベースの特徴量を用いたCRFは、特に適合率で最良の性能を発揮し、分類子の中で最高のF1スコアを達成する。
- 内容とソーシャルの特徴を組み合わせたCRFは、ベースラインを上回り、2番目に良い分類器(Naive Bayes)に対してF1で約39.9%の改善を示す。
- enquiry-based ベースライン(Zhao et al.)は適合率は高いが再現率が非常に低く、CRFと比較して全体的な性能が劣ることを示す。
- ソーシャル特徴のみは内容ベースの特徴に比べて性能が劣り、両方の特徴を組み合わせるとCRFの総合F1が最も高くなる。
- CRFは初期のイベント段階や多様なイベントにおいても優位性を維持し、逐次コンテキストアプローチの一般化性を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。