[論文レビュー] Automated Multilingual Detection of Pro-Kremlin Propaganda in Newspapers and Telegram Posts
本稿では、2022年ロシア=ウクライナ戦争期のウクライナ語、ロシア語、ルーマニア語、英語のニュース記事およびTelegram投稿におけるプロ・クレムリンプロパガンダを検出するための2つの多言語的手法——言語的特徴の設計と多言語Bert——を提案し、比較している。手作業で設計された言語的特徴は、言語や分布の違いを問わず、より高い耐性と解釈可能性を示した一方、Bertモデルは優れた性能を発揮したが、誤検出とトークン長制限の問題を抱えており、コンテンツモデレーションにおける透明性とスケーラビリティのトレードオフを浮き彫りにした。
The full-scale conflict between the Russian Federation and Ukraine generated an unprecedented amount of news articles and social media data reflecting opposing ideologies and narratives. These polarized campaigns have led to mutual accusations of misinformation and fake news, shaping an atmosphere of confusion and mistrust for readers worldwide. This study analyses how the media affected and mirrored public opinion during the first month of the war using news articles and Telegram news channels in Ukrainian, Russian, Romanian, French and English. We propose and compare two methods of multilingual automated pro-Kremlin propaganda identification, based on Transformers and linguistic features. We analyse the advantages and disadvantages of both methods, their adaptability to new genres and languages, and ethical considerations of their usage for content moderation. With this work, we aim to lay the foundation for further development of moderation tools tailored to the current conflict.
研究の動機と目的
- 2022年ロシア=ウクライナ戦争期に、多言語のニュースおよびソーシャルメディアにおけるプロ・クレムリンプロパガンダを自動的かつ透明で説明可能なツールで検出すること。
- キーワードの変動に依存せずに、言語的特徴が複数の言語およびメディアタイプで一貫してプロパガンダを検出できるかどうかを調査すること。
- 自動コンテンツモデレーションにおける解釈可能性(手作業特徴)と性能(ニューラルネットワーク)のトレードオフを評価すること。
- 特に誤検出により自由な言論が抑圧されたり、誤検出によりプロパガンダが拡散されたりする可能性がある、こうしたツールの導入に伴う倫理的懸念を扱うこと。
- ウクライナ語やロシア語などリソースが乏しい言語の現地モデレーターおよびユーザーが活用できるよう、オープンソースのデータとコードを提供すること。
提案手法
- ウクライナ、ロシア、ルーマニア、英語圏(英国/米国)の事実確認済みおよびフェイクニュースとしてマークされたニュース発信元から、2022年戦争の初月をカバーするニュースを収集した。
- 文法的複雑さ、感情極性、語彙多様性、修辞的技法(例:婉曲表現、道徳的怒り)などの言語的特徴を抽出し、プロパガンダのパターンを表現した。
- 正規化された特徴ベクトルを用いてサポートベクターマシン(SVM)分類器を構築し、スタイル的および文法的兆候に基づいてプロパガンダを検出する。
- 同じデータで微調整した多言語Bertモデルを訓練し、文脈的埋め込みに基づいてテキストを「プロ・クレムリン」または「プロ・西側」に分類する。
- グリッドサーチを用いたハイパーパrameterチューニング:SVMにはRBFカーネル、gamma=100、C=46を適用。Bertには初期値学習率1e-4、4エポック、バッチサイズ16を設定。
- 言語やメディアタイプごとの保持済みテストセットを用いてモデルを評価し、性能、特徴の重要度、クラス分布のシフトを分析した。
実験結果
リサーチクエスチョン
- RQ1キーワードに依存せずに、言語的特徴がウクライナ語、ロシア語、ルーマニア語、英語の複数の言語で一貫してプロ・クレムリンプロパガンダを検出できるか?
- RQ2Bertベースのモデルは、多言語かつ戦争関連のニュースおよびTelegramコンテンツにおけるプロパガンダ検出において、手作業特徴モデルと比べてどのように異なるか?
- RQ3自動コンテンツモデレーションにおけるモデルの解釈可能性(特徴ベース)と性能(ニューラルネットワーク)のトレードオフは何か?
- RQ4モデルの性能および誤検出/誤検出率は、言語やメディアジャンル(新聞対Telegram)によってどのように変化するか?
- RQ5こうしたツールを導入することで生じる倫理的リスク、特に正当な発言の抑圧やエコーズ・チェーンの強化の懸念は何か?
主な発見
- 言語的特徴に基づくモデル(SVM)は、言語やデータ分布を問わず一貫した性能を示し、トピックのシフトや戦争関連語彙の変化に対しても耐性があることが判明した。
- Bertベースのモデルは全体的な正答率でSVMを上回ったが、特に分布外データに対して誤検出率が高く、正当なコンテンツの抑圧のリスクをはらんでいた。
- 手作業で設計された特徴は、言語を越えて解釈可能で安定しており、新規のジャンルや言語にテストした場合でも性能の低下が最小限に抑えられた。
- キーワードは、SVMの性能向上にのみ寄与し、新規データでは意味的理解が形態文法的パターンよりも重要であることが明らかになった。
- Bertモデルの性能はトークン長制限によって制限され、主要な語彙の変化が生じると再訓練が必要となり、スケーラビリティが低下した。
- 両モデルとも一部のプロ・西側コンテンツを誤ってプロパガンダとマークした。これは、自動化ツールがエコーズ・チェーンやナラティブバイアスを拡大する可能性があることを示唆している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。