[論文レビュー] Measuring Emotions in the COVID-19 Real World Worry Dataset
この論文は Real World Worry Dataset (RWWD) を提示します。英国を拠点とする5,000件のテキスト回答(長文2,500件、短文2,500件)を自己申告の感情と結びつけ、初期COVID-19ロックダウン中に収集されたデータについて、テキストからの感情の語彙・テーマ相関と予測モデリングを分析します。
The COVID-19 pandemic is having a dramatic impact on societies and economies around the world. With various measures of lockdowns and social distancing in place, it becomes important to understand emotional responses on a large scale. In this paper, we present the first ground truth dataset of emotional responses to COVID-19. We asked participants to indicate their emotions and express these in text. This resulted in the Real World Worry Dataset of 5,000 texts (2,500 short + 2,500 long texts). Our analyses suggest that emotional responses correlated with linguistic measures. Topic modeling further revealed that people in the UK worry about their family and the economic situation. Tweet-sized texts functioned as a call for solidarity, while longer texts shed light on worries and concerns. Using predictive modeling approaches, we were able to approximate the emotional responses of participants from text within 14% of their actual value. We encourage others to use the dataset and improve how we can use automated methods to learn about emotional responses and worries about an urgent problem.
研究の動機と目的
- 英国のロックダウン中に収集されたCOVID-19に対する感情反応のテキスト形式のグラウンドトゥルースデータセットを提供する。
- 自己申告の感情とテキスト特徴との間の語彙的相関を検討する。
- 公衆の懸念のトピックを特定し、テキストの長さが語彙的推論にどのように影響するかを検討する。
- テキストから感情を予測する予測モデルを評価し、精度を評価する。
提案手法
- Prolificを介して英国の居住者から長文2,500件とツイートサイズのテキスト2,500件を収集する(n=2,500人の参加者; 女性65.15%; 平均年齢33.84)。
- 8つの感情と心配のための9段階スケールの自己申告感情スコアを収集し、各参加者につき長文とツイート長の2つの付随テキストを収集する。
- 記述統計とLIWC2015カテゴリとの相関を計算し、感情の語彙的相関を評価する。
- 長文と短文のテキスト上でトピックモデル(stm in R)を構築し、蔓延する懸念とトピックを特定する。
- TF-IDFとPOS特徴量(PCA付き)を用いた正則化リッジ回帰モデルを訓練し、テキストから連続的な感情評価を予測する。MAEとR^2を用いた5分割交差検証で評価する。
実験結果
リサーチクエスチョン
- RQ1Real World Worry DatasetにおけるCOVID-19への自己申告の感情反応は何か?
- RQ2言語的特徴(例:LIWCカテゴリ)は長文と短文における自己申告の感情とどのように関連するか?
- RQ3長文とツイートサイズのテキストにおいて、COVID-19に対する公衆の懸念を支配するトピックは何か?
- RQ4回帰を用いて、テキスト特徴が連続的な感情評価(不安、恐れ、悲しみ、心配)をどれだけ正確に予測できるか?
- RQ5感情推定における短文(ツイートサイズ)のデータの限界は何か?
主な発見
- 長文は短文よりもLIWCカテゴリと自己申告感情との相関が強いことを示す。
- 心配は長文では家族の言及と、より小さな程度で友人の言及と相関する。
- ツイートサイズのテキストは連帯の呼びかけとして機能する一方、長文は健康、雇用、経済に関するより深い懸念を明らかにする。
- リッジ回帰はテキストから感情反応を近似でき、長文で最大で分散の16%、短文で最大で1%を説明する。
- 最良の予測性能は心配スコアで、長文のMAEは1.26、短文は1.37、心配のMAPEは約14%に相当。
- データは長文2,500件(320,372語)と短文2,500件(69,171語)で構成される。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。