[論文レビュー] MM-COVID: A Multilingual and Multimodal Data Repository for Combating COVID-19 Disinformation
MM-COVID は、COVID-19 の多言語・多次元の偽情報データセットを提供し、6言語に跨るコンテンツ、社会的関与、時系列データを組み合わせて、横断言語・多モーダル偽情報検出と緩和を支援します。
The COVID-19 epidemic is considered as the global health crisis of the whole society and the greatest challenge mankind faced since World War Two. Unfortunately, the fake news about COVID-19 is spreading as fast as the virus itself. The incorrect health measurements, anxiety, and hate speeches will have bad consequences on people's physical health, as well as their mental health in the whole world. To help better combat the COVID-19 fake news, we propose a new fake news detection dataset MM-COVID(Multilingual and Multidimensional COVID-19 Fake News Data Repository). This dataset provides the multilingual fake news and the relevant social context. We collect 3981 pieces of fake news content and 7192 trustworthy information from English, Spanish, Portuguese, Hindi, French and Italian, 6 different languages. We present a detailed and exploratory analysis of MM-COVID from different perspectives and demonstrate the utility of MM-COVID in several potential applications of COVID-19 fake news study on multilingual and social media.
研究の動機と目的
- 検出における多言語性と社会的文脈信号に対応するため、COVID-19 の偽情報データセットを多言語・多次元で構築する必要性を動機づける。
- 6言語の偽情報/真情報コンテンツと豊富な社会的・文脈的特徴を用いて MM-COVID を構築する。
- 将来の研究を導くために、ベースラインの多言語偽情報検出手法を提供し、データ特性を分析する。
提案手法
- English, Spanish, Portuguese, Hindi, French, and Italian の真偽ラベルを Snopes および Poynter から収集する。
- Newspaper3k を用いて元情報をクロールし、メタデータ(URL、language、date、text、image)を抽出する。
- Twitter advanced search と twarc を用いてソーシャルエンゲージメント(ツイート、返信、リツイート)を収集する。ユーザープロフィールとタイムラインを収集する。
- 偽情報と真情報の差を特徴づけるために、内容、言語、社会的文脈、および時系列特徴を分析する。
- 言語間で、コンテンツのみ、社会的文脈のみ、およびコンテンツ+社会的文脈の結合モデル(SVM、XGBoost、dEFEND の変種)を用いたベースライン検出器を評価する。
実験結果
リサーチクエスチョン
- RQ1RQ1 十分なラベル付きデータが言語を横断して利用可能な場合、コンテンツのみ、社会的文脈のみ、および結合モデルはどのように性能を示すか?
- RQ2RQ2 クロス言語データ共有を伴う低リソース条件下で性能はどのように変化するか?
- RQ3RQ3 対象言語にラベル付きデータがない場合、社会的文脈信号は横断的な偽情報検出を可能にするか?
主な発見
- MM-COVID は多言語コンテンツと社会的文脈を組み合わせることで、言語を跨ぐ偽情報検出を可能にする。
- Content+social-context モデル(dEFEND の variants)は、十分なリソースがある設定で言語間においてコンテンツのみのベースラインを上回る。
- 低リソース設定では、ターゲット言語データと補助ソース言語データを使用する場合に社会的文脈が役立つ;ターゲット言語データが全くない場合でも、横断的な社会的文脈モデルは競争力のある性能を示す。
- 時間的社会エンゲージメントパターンは言語に依存しない信号を明らかにし、言語を跨ぐ早期偽情報検出を支援できる。
- ボット様のユーザー行動は複数言語で偽情報のエンゲージメントと相関し、検出のためのユーザープロフィール特徴の価値を示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。