Skip to main content
QUICK REVIEW

[論文レビュー] Fine-Grained Analysis of Propaganda in News Articles

Giovanni Da San Martino, Seunghak Yu|arXiv (Cornell University)|Oct 6, 2019
Topic Modeling参考文献 23被引用数 95
ひとこと要約

この論文は、細粒度の断片レベルの汎 propaganda 検出アプローチを提案し、18 の技術を注釈付けし、大規模な注釈付きコーパスを作成し、評価指標を提案し、強力な BERT ベースラインを上回る多層的ニューラルネットワークを提示します。

ABSTRACT

Propaganda aims at influencing people's mindset with the purpose of advancing a specific agenda. Previous work has addressed propaganda detection at the document level, typically labelling all articles from a propagandistic news outlet as propaganda. Such noisy gold labels inevitably affect the quality of any learning system trained on them. A further issue with most existing systems is the lack of explainability. To overcome these limitations, we propose a novel task: performing fine-grained analysis of texts by detecting all fragments that contain propaganda techniques as well as their type. In particular, we create a corpus of news articles manually annotated at the fragment level with eighteen propaganda techniques and we propose a suitable evaluation measure. We further design a novel multi-granularity neural network, and we show that it outperforms several strong BERT-based baselines.

研究の動機と目的

  • 断片レベルのプロパガンダ分析の必要性を、文書レベルのラベリングよりも動機づける。
  • 断片レベルで技術を注釈付けした高品質コーパスを作成する。
  • 部分的な重複や異なる断片長を考慮した評価手段を提案する。
  • 低粒度の信号を利用して高粒度の予測を改善するマルチグラニュラリティ・ニューラルネットワークを開発する。
  • 提案モデルが断片レベルおよび文レベルのタスクで強力な BERT ベースラインを上回ることを示す。

提案手法

  • 断片レベル注釈に適した 18 のジャーナリスティックなプロパガンダ技術を定義する。
  • 技術の断片レベルラベルを付与した 451 記事のコーパス(350k トークン)を収集・注釈付けする。
  • 盗作検出やNERベースのアイデアに触発された、部分的重複を考慮した評価指標を提案する。
  • 低粒度信号(文レベル)を用いて高粒度の予測(断片レベル)を情報化するマルチグラニュラリティ・ネットワークを開発する。
  • BERT 系のベースライン(BERT、BERT-Joint、BERT-Grain)をファインチューニングし、提案するマルチグラニュラリティ・ネットワークと比較する。
  • 二つのタスクで評価する:SLC(文レベル分類)と FLC(断片レベル分類)、特別な損失とゲーティング機構を用いる。

実験結果

リサーチクエスチョン

  • RQ1ニュース記事において、プロパガンダ断片を細粒度で信頼性高く検出・ラベリングできるか。
  • RQ2断片レベルの予測を改善する、文レベル信号を活用するマルチグラニュラリティ構造は、標準的な BERT ベースラインより優れているか。
  • RQ3提案された評価指標は、部分的重複と異なる断片長を適切に評価するか。

主な発見

モデルスパンフルタスク - Pフルタスク - Rフルタスク - F1ノート
BERT39.5721.4821.3921.39Spans; Full-task results shown together in table
BERT-Joint39.2620.1119.7419.92Joint training for SLC and FLC
Granu43.0823.8520.1421.80Sentence-level info integrated into FLC
Multi-Granularity - ReLU43.2923.9820.3321.82Gate-based fusion; aggressive filtering
Multi-Granularity - Sigmoid44.1224.4221.0522.58Gate-based fusion; partial overlaps credited
  • コーパスには 7,485 件のプロパガンダ技術インスタンスが 21,230 語の文に跨って含まれている(35.2%)。
  • 最も頻繁な技術は loaded language(2,547 件)と name calling/labeling(1,294 件)。
  • 提案されたマルチグラニュラリティ・ネットワーク(MGN)は、断片レベル検出で BERT ベースラインを上回り、特にゲーティング機構(Sigmoid または ReLU)を使用した場合に顕著。
  • 断片レベル検出では、断片長とラベルを spans+labels として用いた全タスク評価で、MGN(Sigmoid)は P=24.42、R=21.05、F1=22.58 を達成し、ベースラインより高い精度。
  • 文レベル検出では、MGN は BERT ベースラインより大きな改善を示し、全プロパガンダ設定でリコールを 8.42%、F1 を 3.24 ポイント向上。
  • 本研究は、低粒度信号を取り入れることで高粒度タスクを有意に改善できることを示しつつ、ネガティブゲーティングはノイズの多いネガティブサンプルを減らす。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。