Skip to main content
QUICK REVIEW

[論文レビュー] Learning Hierarchical Discourse-level Structure for Fake News Detection

Hamid Reza Karimi, Jiliang Tang|arXiv (Cornell University)|Feb 27, 2019
Misinformation and Its Impacts参考文献 38被引用数 35
ひとこと要約

HDSFは自動的に階層的な談話レベルの依存構造を文書に学習し、それを用いて偽情報分類のための構造的に豊かな表現を生成し、ベースラインを上回る。

ABSTRACT

On the one hand, nowadays, fake news articles are easily propagated through various online media platforms and have become a grand threat to the trustworthiness of information. On the other hand, our understanding of the language of fake news is still minimal. Incorporating hierarchical discourse-level structure of fake and real news articles is one crucial step toward a better understanding of how these articles are structured. Nevertheless, this has rarely been investigated in the fake news detection domain and faces tremendous challenges. First, existing methods for capturing discourse-level structure rely on annotated corpora which are not available for fake news datasets. Second, how to extract out useful information from such discovered structures is another challenge. To address these challenges, we propose Hierarchical Discourse-level Structure for Fake news detection. HDSF learns and constructs a discourse-level structure for fake/real news articles in an automated and data-driven manner. Moreover, we identify insightful structure-related properties, which can explain the discovered structures and boost our understating of fake news. Conducted experiments show the effectiveness of the proposed approach. Further structural analysis suggests that real and fake news present substantial differences in the hierarchical discourse-level structures.

研究の動機と目的

  • 階層的談話レベル構造が偽ニュースと実ニュースを識別できるかを調査する。
  • 注釈データなしで談話依存を学習するエンドツーエンドの枠組みを開発する。
  • 構造的情報を取り入れた文書表現を作成し、偽ニュース分類の有効性を高める。
  • 偽ニュースと実ニュースを区別し、整合性と関連する構造に関連する特性を特定する。

提案手法

  • 各文を単語埋め込みから派生したBLSTMベースの埋め込みで表現する。
  • アテンションベースの行列Aと根確率rを用いて、文間依存確率を学習し談話依存木を形成する。
  • Aとrを用いて貪欲に談話木を構築し、各文書の木構造を得る。
  • 潜在的な親と子から構造的情報を考慮した文の表現p_jとc_jを計算し、次にg_jを導出する。
  • g_jを集約して構造的に豊かな文書表現xを形成し、クロスエントロピー損失を用いて偽/実の二値分類を行う。
  • バックプロパゲーションを用いて全体のフレームワークをエンドツーエンドで訓練する。なお、木の構築は事後処理であり微分対象ではない。

実験結果

リサーチクエスチョン

  • RQ1提案されたHDSFフレームワークは、ベースラインと比較して偽ニュース検出の性能を改善しますか?
  • RQ2談話木の構造に関連するどの性質が偽ニュースと実ニュースを区別し、整合性とどう関連していますか?

主な発見

手法正解率(%)
N-grams72.37
LIWC70.26
RST67.68
BiGRNN-CNN77.06
LSTM[w+s]80.54
LSTM[s]73.63
HDSF82.19
  • HDSFは統合データセットでベースラインを著しく上回る(82.19%の正解率対LSTM[w+s]の80.54%)。
  • 文書の構造認識表現は、N-gramやLIWCのような内容のみの特徴よりも強い識別力を示す。
  • 談話依存木は、提案された3つの特性のすべてで偽ニュースと実ニュースの顕著な差を示し、実ニュースの方が整合性が高い。
  • 事後的な貪欲木構築法は文間確率を用いて根と親子関係を組み立てる。
  • 訓練と開発の曲線は、最適化中に訓練誤差が減少し精度が向上することを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。