Skip to main content
QUICK REVIEW

[논문 리뷰] Measuring Emotions in the COVID-19 Real World Worry Dataset

Bennett Kleinberg, Isabelle van der Vegt|arXiv (Cornell University)|2020. 04. 08.
Computational and Text Analysis Methods참고 문헌 22인용 수 86
한 줄 요약

이 논문은 Real World Worry Dataset (RWWD)를 제시합니다. 이는 초기 COVID-19 봉쇄 기간 동안 자가 보고된 감정과 연결된 영국 기반 텍스트 응답 5,000개(2,500개는 길고, 2,500개는 짧습니다)로 구성된 ground-truth 데이터 세트이며, 텍스트에서의 감정의 언어적 상관관계, 주제 및 감정 예측 모델링을 분석합니다.

ABSTRACT

The COVID-19 pandemic is having a dramatic impact on societies and economies around the world. With various measures of lockdowns and social distancing in place, it becomes important to understand emotional responses on a large scale. In this paper, we present the first ground truth dataset of emotional responses to COVID-19. We asked participants to indicate their emotions and express these in text. This resulted in the Real World Worry Dataset of 5,000 texts (2,500 short + 2,500 long texts). Our analyses suggest that emotional responses correlated with linguistic measures. Topic modeling further revealed that people in the UK worry about their family and the economic situation. Tweet-sized texts functioned as a call for solidarity, while longer texts shed light on worries and concerns. Using predictive modeling approaches, we were able to approximate the emotional responses of participants from text within 14% of their actual value. We encourage others to use the dataset and improve how we can use automated methods to learn about emotional responses and worries about an urgent problem.

연구 동기 및 목표

  • COVID-19에 대한 텍스트 형태의 감정 반응에 대한 UK 락다운 기간 중 수집된 ground-truth 데이터 세트를 제공한다.
  • 자가 보고된 감정과 텍스트 특징 간의 언어적 상관관계를 조사한다.
  • 공공 우려의 주제를 식별하고 텍스트 길이가 언어적 추론에 미치는 영향을 파악한다.
  • 텍스트에서 감정을 예측하는 예측 모델의 성능을 평가하고 정확도를 평가한다.

제안 방법

  • Prolific를 통해 영국 거주자로부터 2,500개의 긴 텍스트와 2,500개의 트윗 크기의 텍스트를 수집한다(참여자 수 n=2,500명; 여성 비율 65.15%; 평균 연령 33.84).
  • 여덟 가지 감정과 걱정에 대해 9점 척도의 자가 보고 감정 점수를 수집하고, 참가자별로 두 개의 accompanying 텍스트(긴 텍스트와 트윗 길이)를 수집한다.
  • 감정의 언어적 상관관계를 평가하기 위해 LIWC2015 범주와의 기술통계 및 상관관계를 계산한다.
  • 긴 텍스트와 짧은 텍스트에서 지배적인 우려와 주제를 식별하기 위해 주제 모델(stm in R)을 구축한다.
  • 텍스트에서 연속적 감정 점수를 예측하기 위해 TF-IDF와 POS 특징(주성분 분석(PCA) 포함)을 사용한 정규화된 릿지 회귀 모델을 학습한다; MAE와 R^2를 사용한 다섯 겹 교차 검증으로 평가한다.

실험 결과

연구 질문

  • RQ1Real World Worry Dataset에서 COVID-19에 대한 자기 보고된 감정 반응은 무엇인가?
  • RQ2긴 텍스트와 짧은 텍스트에서 자가 보고된 감정과 언어적 특징(LIWC 카테고리 등) 간의 관계는 어떠한가?
  • RQ3긴 텍스트와 트윗 크기 텍스트에서 공공 우려 주제는 무엇이며, 어떤 차이가 있는가?
  • RQ4텍스트 특성을 사용해 연속적 감정 점수(불안, 두려움, 슬픔, 걱정)를 예측하는 회귀에서의 성능은 얼마나 되는가?
  • RQ5짧은 텍스트(트윗 크기) 데이터가 감정 추론에 미치는 한계는 무엇인가?

주요 결과

  • 긴 텍스트가 LIWC 카테고리와 자가 보고된 감정 간의 상관관계가 짧은 텍스트보다 더 강하게 나타난다.
  • 걱정은 긴 텍스트에서 가족 언급과, 더 낮은 정도로 친구 언급과의 상관이 있다.
  • 트윗 크기 텍스트는 연대의 필요성을 나타내는 신호 역할을 하는 반면, 더 긴 텍스트는 건강, 고용, 경제에 대한 깊은 걱정을 드러낸다.
  • 릿지 회귀는 텍스트에서 감정 반응을 근사할 수 있으며, 긴 텍스트의 경우 분산의 최대 16%까지 설명하고 짧은 텍스트의 경우 최대 1%까지 설명한다.
  • 감정 점수에 대한 가장 좋은 예측 성능은 걱정 점수이며(긴 텍스트 MAE 1.26, 짧은 텍스트 1.37; 걱정의 ~14% MAPE).
  • 데이터는 2,500개의 긴 텍스트(320,372 토큰)와 2,500개의 짧은 텍스트(69,171 토큰)로 구성된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.