[論文レビュー] Analyzing COVID-19 on Online Social Media: Trends, Sentiments and Emotions
この論文は、TwitterとWeibo の COVID-19 関連投稿を 2020年1月20日から5月11日まで分析し、話題の傾向、六つの基本感情、感情トリガーを把握し、米国と中国を比較するため、半監視型検索と trigger extraction を用いた BERT ベースの感情タグ付けを行う。
At the time of writing, the ongoing pandemic of coronavirus disease (COVID-19) has caused severe impacts on society, economy and people's daily lives. People constantly express their opinions on various aspects of the pandemic on social media, making user-generated content an important source for understanding public emotions and concerns. In this paper, we perform a comprehensive analysis on the affective trajectories of the American people and the Chinese people based on Twitter and Weibo posts between January 20th, 2020 and May 11th 2020. Specifically, by identifying people's sentiments, emotions (i.e., anger, disgust, fear, happiness, sadness, surprise) and the emotional triggers (e.g., what a user is angry/sad about) we are able to depict the dynamics of public affect in the time of COVID-19. By contrasting two very different countries, China and the Unites States, we reveal sharp differences in people's views on COVID-19 in different cultures. Our study provides a computational approach to unveiling public emotions and concerns on the pandemic in real-time, which would potentially help policy-makers better understand people's need and thus make optimal policy.
研究の動機と目的
- Twitter と Weibo 上で、COVID-19 に対する公衆の感情と懸念が時間とともにどのように進化したかを理解する。
- 細分化された感情(怒り、嫌悪、恐怖、喜び、悲しみ、驚き)とそれらのトリガーを特定する。
- 米国と中国の公衆反応を対比させ、パンデミック認識の文化的差異を明らかにする。
- 政策に情報を提供するための公衆の感情と懸念を抽出するリアルタイム計算手法を開発する。
提案手法
- Seedキーワードを用いたブートストラップ型半教師付き検索、反復再学習、顕著性に基づくキーワード拡張を用いてCOVID-19関連投稿を同定する。
- 感情説明をプロンプトとして用いた BERT による英語ツイートの六値多ラベル感情分類(シグモイド出力)。
- Weibo データに対して文化的に関連するラベルを用いた described-BERT モデルによる中国語感情分類。
- 感情強度 S(t,y) は投稿全体で日次平均 P(y|x) として計算され、非COVID テキストには確率を0と割り当てる。
- 感情のトリガー抽出を、BERT-MRC 機能を用いた CRF タグ付け器で行い、POS・依存関係・Twitter固有の特徴を強化する。
- 時系列でのサブカテゴリと話題を発見するため、トリガー上位 mentions に対して LDA による非教師ありクラスタリング。
実験結果
リサーチクエスチョン
- RQ1Twitter と Weibo 上で COVID-19 に関連する話題の蔓延と感情状態の時間的ダイナミクスはどのようになるか。
- RQ2パンデミックの間、六基本感情はどのように変動し、それらの意味的トリガーは何か。
- RQ3米国と中国の公衆感情とトリガーにはどのような差が生じるか?
- RQ4半教師付きのリアルタイムパイプラインは、COVID-19関連投稿とその感情を効果的に収集・追跡できるか?
- RQ5怒りと不安の下位トリガーのサブカテゴリは、時間とともに公衆の懸念を最もよく説明するのか?
主な発見
- Weibo の COVID関連投稿の強度は1月下旬〜2月にピークを迎え、3月にも再度高まる一方、Twitter は3月以降関心が高まる傾向を示しており、執筆時点で明確な低下はみられない。
- BERT ベースの多ラベル分類器を用いた感情タグ付けは、英語ツイートで micro F1 が 75.2、macro F1 が 68.3 を達成; BERT-description は macro F1 が 77.0 に達する。
- Weibo では一般的な投稿強度とともに不安がピーク; 怒りは Li Wenliang の死去により2月8日頃に急増; Twitter では怒りと不安が米国の outbreak や政策イベントとともに高まる。
- 主要な怒りのトリガーには lockdown、quarantine、主要人物(Trump、Pence)、中国関連トピックが含まれる; 不安のトリガーには雇用、財政、家族の懸念、ウイルスの拡散などが含まれる。
- LDA を用いたトリガークラスタリングは、中国関連の怒り、ロックダウン、病院での治療など、解釈可能なトピックを明らかにする。不安トピックには財政、家族、死者/感染者の増加が含まれる。
- Flowers: ブートストラップの3回のラウンドにより、COVID関連ツイート分類のF1スコアは初期ラウンドでそれぞれ 0.74、0.82、0.86 となった。
- 全体として、本研究は世界的危機の最中に公衆の感情とその推進要因を定量化するリアルタイム対応のフレームワークを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。