Skip to main content
QUICK REVIEW

[論文レビュー] Two Stage Transformer Model for COVID-19 Fake News Detection and Fact Checking

Rutvik Vijjali, Prathyush Potluri|arXiv (Cornell University)|Nov 26, 2020
Misinformation and Its Impacts参考文献 24被引用数 47
ひとこと要約

Two-stage pipeline uses transformer models to fetch relevant COVID-19 fact explanations and verify claims via textual entailment, achieving superior accuracy and near real-time performance.

ABSTRACT

The rapid advancement of technology in online communication via social media platforms has led to a prolific rise in the spread of misinformation and fake news. Fake news is especially rampant in the current COVID-19 pandemic, leading to people believing in false and potentially harmful claims and stories. Detecting fake news quickly can alleviate the spread of panic, chaos and potential health hazards. We developed a two stage automated pipeline for COVID-19 fake news detection using state of the art machine learning models for natural language processing. The first model leverages a novel fact checking algorithm that retrieves the most relevant facts concerning user claims about particular COVID-19 claims. The second model verifies the level of truth in the claim by computing the textual entailment between the claim and the true facts retrieved from a manually curated COVID-19 dataset. The dataset is based on a publicly available knowledge source consisting of more than 5000 COVID-19 false claims and verified explanations, a subset of which was internally annotated and cross-validated to train and evaluate our models. We evaluate a series of models based on classical text-based features to more contextual Transformer based models and observe that a model pipeline based on BERT and ALBERT for the two stages respectively yields the best results.

研究の動機と目的

  • パンデミック期間中の誤情報を抑制するために、堅牢なCOVID-19の偽情報検出を促進する。
  • 偽の主張に関連づけられた検証済み説明の動的知識ベースを構築する。
  • Model A が関連する説明を取得し、Model B が含意検証を通じて真偽を検証する2段階パイプラインを設計する。

提案手法

  • Model A: 主張−説明の二値含意を学習させる変換器を用いて候補となる説明を取得する。主張と説明の埋め込みをキャッシュし、コサイン類似度で比較して上位候補を選択。
  • Model B: 検証をテキスト含意問題として扱う。Model A のパラメータで初期化し、交差検証データでファインチューニング; 真偽の確率を出力。
  • ベースライン比較にはTF、TF-IDF、GloVe特徴量を用いた単純な分類器を含む。
  • 評価したトランスフォーマー: MobileBERT、BERT、ALBERT、および組み合わせ(例: BERT+ALBERT)を、ほぼリアルタイム計算を考慮して検討。

実験結果

リサーチクエスチョン

  • RQ12段階のトランスフォーマーパイプラインは、関連するCOVID-19の説明を効果的に取得し、含意を用いて主張の真偽を検証できるか。
  • RQ2事前学習済みモデル(BERT、ALBERT、MobileBERT)のうち、検索(Model A)と検証(Model B)で最も高い性能を発揮するのはどれか。
  • RQ3近リアルタイム展開のための精度と待機時間において、2段階アプローチは古典的なNLPベースラインとどう比較されるか。
  • RQ4COVID-19領域における主張−説明ペアの訓練と評価を支援するデータセットは何か。
  • RQ5取得品質と検証精度を最もよく反映する閾値と評価指標は何か。

主な発見

  • トランスフォーマーベースのモデルは、検索と検証の両タスクで古典的なNLPベースラインを上回る。
  • テストセットでの総合最良性能は、BERT(Model A)とALBERT(Model B)の組み合わせで達成。
  • Model A は高いMRRとRecall@10で関連説明を取得; Model B はコサイン類似度閾値を超えるトップ説明を使用した場合に高い精度を達成。
  • Table 3で最高のテストセット精度0.855、MRR 0.632、Recall@10 0.795 をBERT+ALBERTが達成。
  • ほぼリアルタイム性能が実現可能。MobileBERTがトランスフォーマーの中で最も低遅延を示し、ALBERTが最小のメモリ使用量を示す。BERT+ALBERTの組み合わせは1398 MB、1件あたり約2.471秒。
  • データセットは訓練用に5500の偽の主張−説明ペア、テスト用に200の交差検証ペアで、COVID-19ファクトチェックから抽出されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。