[論文レビュー] COVID-19 on Social Media: Analyzing Misinformation in Twitter Conversations
この研究は、2020年3月1日から6月5日までのTwitterデータを収集し、ファクトチェックソースを用いてCOVID-19の誤情報を特定・分析し、物語・エンゲージメント・拡散を公開の誤情報ダッシュボードを通じて検討する。
The ongoing Coronavirus (COVID-19) pandemic highlights the inter-connectedness of our present-day globalized world. With social distancing policies in place, virtual communication has become an important source of (mis)information. As increasing number of people rely on social media platforms for news, identifying misinformation and uncovering the nature of online discourse around COVID-19 has emerged as a critical task. To this end, we collected streaming data related to COVID-19 using the Twitter API, starting March 1, 2020. We identified unreliable and misleading contents based on fact-checking sources, and examined the narratives promoted in misinformation tweets, along with the distribution of engagements with these tweets. In addition, we provide examples of the spreading patterns of prominent misinformation tweets. The analysis is presented and updated on a publically accessible dashboard (https://usc-melady.github.io/COVID-19-Tweet-Analysis) to track the nature of online discourse and misinformation about COVID-19 on Twitter from March 1 - June 5, 2020. The dashboard provides a daily list of identified misinformation tweets, along with topics, sentiments, and emerging trends in the COVID-19 Twitter discourse. The dashboard is provided to improve visibility into the nature and quality of information shared online, and provide real-time access to insights and information extracted from the dataset.
研究の動機と目的
- ファクトチェックソースと外部リンクを用いてTwitter上のCOVID-19誤情報を定量化する。
- 誤情報ツイートで促進される物語とトピックを特徴づける。
- 地理的分布にわたる誤情報のエンゲージメントパターンと伝播カスケードを分析する。
- COVID-19の言説と誤情報に関するリアルタイムの洞察を提供する公開アクセス可能なダッシュボードを提供する。
提案手法
- 2020年3月1日から6月5日までのCOVID-19に関連するTwitterストリーミングデータを収集する(85.04Mツイート; 54.32M英語ツイート)。
- 外部コンテンツをファクトチェックソース(Media Bias/Fact Check、NewsGuard、Zimdars)にリンクさせることで誤情報ツイートにラベルを付ける。
- リツイート/リプライのグラフから情報カスケードを構築し、誤情報ソースへのリンクがある場合は元ツイートを誤情報としてマークする。
- ソースタイプ別の分布、エンゲージメント分析、ハッシュタグに対するTF-IDFを用いた物語抽出など、誤情報分析を実行する。
- 語彙ベースの手法(Hutto and Gilbert 2014)を用いた感情分析を実施し、国レベルの感情を集計する。
- 英語ツイートの20トピックを識別するために文字埋め込みを用いたトピックモデリングを適用する。
実験結果
リサーチクエスチョン
- RQ1Twitter上のCOVID-19誤情報を特徴づける物語とトピックは何か?
- RQ2誤情報ツイートはソースやエンゲージメントパターン(リツイート/リプライ)でどのように分布するか?
- RQ3カスケードを通じて誤情報は地理的にどのように拡散するか?
- RQ4COVID-19の介入と語彙に関連する感情の傾向は何か?
- RQ5公開ダッシュボードは誤情報、トピック、傾向のリアルタイム追跡を提供できるか?
主な発見
- データセットは全球的に収集された85.04百万ツイートで構成され、63.88%が英語、43.02%が地理情報を含む。代表されるユーザーアカウントは10.61百万、うち7.51%が認証済み。
- 外部リンクを含むソースツイートの3.29%(150.8K)が、ファクトチェックサイトから特定された誤情報ソースにリンクしている。
- 誤情報カスケードは大規模な拡散を含み、最大のカスケードは複数の国にまたがり10,000件を超えるリツイートを記録。
- 誤情報タイプ別の特徴的なハッシュタグはTF-IDF分析により特定され、カテゴリ別の物語(信頼性が低い、陰謀論、ク Clickベイト、政治的/偏向)を明らかにした。
- エンゲージメントパターンはカテゴリによって異なり、信頼性の低いものと陰謀論ソースは、ソースツイート量に比して反応数が一般的に少ない。
- 感情とトピック分析は、時間とともに進化する国レベルの認識とトピッククラスターを示し、公開ダッシュボードで追跡される。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。