QUICK REVIEW

[論文レビュー] Fake News Detection in Social Media using Graph Neural Networks and NLP Techniques: A COVID-19 Use-case

Abdullah Hamid, Nasrullah Shiekh|arXiv (Cornell University)|Nov 30, 2020

Misinformation and Its Impacts参考文献 10被引用数 23

ひとこと要約

本稿は、COVID-19パンデミック期のソーシャルメディアにおけるフェイクニュース検出のためのハイブリッド手法を提案する。Bag-of-Words (BoW)、BERT埋め込み、およびグラフニューラルネットワーク (GNN) を組み合わせ、ツイート本文とリツイートネットワーク構造の両方を分析する。二値分類ではF1スコア0.693、構造ベース検出ではAUC-ROC 0.95を達成し、NLPとグラフベース手法の統合が5Gやその他の陰謀論関連の誤情報特定に有効であることを示している。

ABSTRACT

The paper presents our solutions for the MediaEval 2020 task namely FakeNews: Corona Virus and 5G Conspiracy Multimedia Twitter-Data-Based Analysis. The task aims to analyze tweets related to COVID-19 and 5G conspiracy theories to detect misinformation spreaders. The task is composed of two sub-tasks namely (i) text-based, and (ii) structure-based fake news detection. For the first task, we propose six different solutions relying on Bag of Words (BoW) and BERT embedding. Three of the methods aim at binary classification task by differentiating in 5G conspiracy and the rest of the COVID-19 related tweets while the rest of them treat the task as ternary classification problem. In the ternary classification task, our BoW and BERT based methods obtained an F1-score of .606% and .566% on the development set, respectively. On the binary classification, the BoW and BERT based solutions obtained an average F1-score of .666% and .693%, respectively. On the other hand, for structure-based fake news detection, we rely on Graph Neural Networks (GNNs) achieving an average ROC of .95% on the development set.

研究の動機と目的

2020年初頭のTwitterデータにおける、COVID-19および5G陰謀論関連の誤情報検出を目的とする。
アンサンブルサンプリングとラテナル融合技術を用いて、フェイクニュースデータセットにおけるクラス不均衡問題に対処することを目的とする。
NLPベースのモデル（BoWおよびBERT）がテキストベースのフェイクニュース分類に有効であるかを評価することを目的とする。
リツイートネットワークのトポロジーを用いて、グラフニューラルネットワーク (GNN) による構造ベースのフェイクニュース検出の有効性を検討することを目的とする。
テキスト的および構造的信号を統合し、誤情報拡散者の特定を向上させることを目的とする。

提案手法

テキストベースの手法では、BoWとBERT埋め込みを用い、テキストは標 punctuations、URL、絵文字、ストップワードを除去して前処理する。
BoW特徴量に対してナイーブベイズ分類器を訓練する一方、BERTによって生成された単語埋め込みにはロジスティック回帰を適用する。
クラス不均衡は、多数クラスをN個の部分に分割し、N個のモデルを訓練した後、メジャー投票またはスコアの合算によるラテナル融合により緩和する。
構造ベース検出では、GNNがkホップ近傍集合の集約を通じてノード表現を学習し、SUMおよびMEANプーリング操作を用いる。
グラフレベルの表現はグラフREADOUTにより得られ、最終モデルは1000エポック、0.01の学習率、ドロップアウト率0.3で訓練される。
モデルは10%のホールドアウトテストセットを用いてAUC-ROCで評価され、グラフ構造における高い識別性能を示した。

実験結果

リサーチクエスチョン

RQ1クラス不均衡を伴うデータにおいて、BoWおよびBERTベースのモデルは、COVID-19関連ツイートにおける5Gやその他の陰謀論を効果的に検出できるか？
RQ2再サンプリングされたデータで訓練された複数のモデルをラテナル融合することで、テキストベースのフェイクニュース検出性能が向上するか？
RQ3グラフニューラルネットワークは、リツイートネットワーク構造を効果的に分類し、5G関連およびその他の陰謀論を区別できるか？
RQ4メジャー投票とスコアの合算という異なる統合戦略は、アンサンブルモデルの性能にどのように影響を与えるか？
RQ5ソーシャルネットワーク内の構造的パターンは、誤情報拡散者の特定に信頼できる指標として機能するか？

主な発見

開発セットでは、BoWベースの手法が三値分類でF1スコア0.606を達成したのに対し、BERTベースのモデルは0.566にとどまった。
二値分類では、BoWモデルとBERTモデルの平均F1スコアはそれぞれ0.666および0.693を記録し、三値分類を上回った。
構造ベースのGNNモデルは、開発セットで平均AUC-ROC 0.95を達成し、グラフレベル分類における優れた識別能力を示した。
最も優れた成績を示した実験（Run 4）は、BoWとメジャー投票を組み合わせ、F1スコア0.693、テストセットAUC-ROC 0.3944を達成した。
結果から、陰謀論の種別に応じてリツイートネットワーク内の構造的パターンに顕著な差が認められ、GNNによる効果的な検出が可能であることが示唆された。
特にメジャー投票によるラテナル融合戦略は、クラス不均衡の処理において個々のモデルを上回る性能を発揮した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。