[論文レビュー] Graph-based Modeling of Online Communities for Fake News Detection
SAFER は ユーザーと記事からなる異種グラフを構築し、 Relational および Hyperbolic Graph Neural Network を用いて社会的文脈特徴を取り入れ、偽ニュース検出を改善し、2つのドメインで最先端の結果を達成します。
Over the past few years, there has been a substantial effort towards automated detection of fake news on social media platforms. Existing research has modeled the structure, style, content, and patterns in dissemination of online posts, as well as the demographic traits of users who interact with them. However, no attention has been directed towards modeling the properties of online communities that interact with the posts. In this work, we propose a novel social context-aware fake news detection framework, SAFER, based on graph neural networks (GNNs). The proposed framework aggregates information with respect to: 1) the nature of the content disseminated, 2) content-sharing behavior of users, and 3) the social network of those users. We furthermore perform a systematic comparison of several GNN models for this task and introduce novel methods based on relational and hyperbolic GNNs, which have not been previously used for user or community modeling within NLP. We empirically demonstrate that our framework yields significant improvements over existing text-based techniques and achieves state-of-the-art results on fake news datasets from two different domains.
研究の動機と目的
- オンラインコミュニティの特性を活用して、テキストや単純な伝播信号を超えた偽ニュース検出を動機づける。
- 記事コンテンツ、ユーザーの共有行動、ソーシャルネットワーク構造を統合する、グラフベースのフレームワーク SAFER を提案する。
- 異種ソーシャルグラフに対して、Relational 型および Hyperbolic 型を含む複数の GNN アーキテクチャを体系的に比較する。
- 2つのドメイン多様なデータセットで、テキストのみのベースラインおよび既存手法より検出性能の向上を示す。
提案手法
- 記事ノードとユーザーノードの2タイプノードの異種グラフを構築し、エッジはユーザーが共有した記事とユーザー間のフォロー関係に接続される。
- 記事テキストをCNNまたはRoBERTaでテキストエンコーダとしてエンコードする。
- ユーザー/コミュニケーショングラフを、GCN、GAT、GraphSAGE、Relational GCN/Relational GAT、Hyperbolic GCN/GAT などのさまざまな GNN でエンコードする。
- エンコーダを独立して訓練し、記事ごとのユーザー埋め込みを正規化された平均で社会的文脈ベクトルに集約し、テキスト埋め込みと結合してロジスティック回帰で分類する。
- グラフ内の異なる関係タイプを捉えるため Relational GNN を使用し、スケールフリーで階層的な構造をより適切に埋め込むため Hyperbolic GNN を探索する。
- GossipCop と HealthStory の2つのデータセットを用い、70/10/20 の訓練/検証/テスト分割で評価し、テキストベースライン、ソーシャルベースライン、既存手法と比較する。
実験結果
リサーチクエスチョン
- RQ1オンラインコミュニティとユーザーとコンテンツ共有関係をモデリングすることで、テキストベースのアプローチを超えた偽ニュース検出の改善が可能か。
- RQ2このタスクにおいて、Relational および Hyperbolic GNN は従来の GNN より有益か。
- RQ3社会的文脈情報がテキスト内容とどのように相互作用して、ドメインを横断した検出精度に影響を与えるか。
- RQ4グラフのスパースさとアクティブユーザー選択が SAFER の性能に与える影響は何か。
- RQ5頻繁に利用するユーザーからの偏りや共有パターンの偏りに対して SAFER は頑健か。
主な発見
| モデル | GossipCop (F1) | HealthStory (F1) | ノート |
|---|---|---|---|
| CNN | 66.73 | 53.81 | Text baseline (CNN) |
| RoBERTa | 68.55 | 57.54 | Text baseline (RoBERTa) |
| Maj. sharing baseline | 77.19 | 8.20 | Simple sharing-based baseline (GossipCop/HealthStory) |
| SAGE (social baseline) | 87.11 | 43.05 | GNN-based social baseline on text-absent articles |
| GCN (social) | 88.37 | 44.86 | Traditional GCN baseline |
| GAT (social) | 87.94 | 46.13 | Traditional GAT baseline |
| R-GCN | 89.68 | 46.28 | Relational GCN variant |
| R-GAT | 89.21 | 46.89 | Relational GAT variant |
| Hy-GCN | 87.45 | 44.90 | Hyperbolic GCN variant |
| Hy-GAT | 85.56 | 43.09 | Hyperbolic GAT variant |
| SAFER (SAGE) | 93.32 | 58.34 | SAFER with SAGE encoder |
| SAFER (GCN) | 93.61 | 58.65 | SAFER with GCN encoder |
| SAFER (GAT) | 93.65 | 58.55 | SAFER with GAT encoder |
| SAFER (R-GCN) | 94.69 | 61.71 | SAFER with Relational GCN (best on GossipCop) |
| SAFER (R-GAT) | 94.53 | 62.54 | SAFER with Relational GAT (best on HealthStory) |
| SAFER (Hy-GCN) | 93.64 | 61.81 | SAFER with Hyperbolic GCN |
| SAFER (Hy-GAT) | 92.97 | 61.91 | SAFER with Hyperbolic GAT |
- SAFER は GossipCop および HealthStory でテキストベースのベースラインおよび多数共有ベースラインを大幅に上回る。
- Relational GNN 変種は従来の GNN を上回り、異種グラフで関係を明示的にモデル化する価値を示す。
- Hyperbolic GNN は報告された浅い(2層)設定では従来の GNN と同程度だが、深いグラフでは潜在的な利点を示す。より豊かなコミュニティモデリングはクラス分離を明確にし、t-SNE で視覚化される。
- 性能はグラフ密度とアクティブユーザー選択に敏感で、適度な sparsity の下で SAFER は優れており、グラフが極端に sparsity になると利得が減少する。
- GossipCop は type-(b) ユーザー(共有のみ偽) の割合が大きく、HealthStory よりもコミュニティ構造がより明確であるため、社会的文脈の利得が大きい。
- アブレーション研究は、HealthStory で上位約2万行動的ユーザー、GossipCop で約3万のアクティブユーザーで最適性能を示すこと、過度に密なまたは稀なグラフは性能を低下させることを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。