[论文解读] Measuring Emotions in the COVID-19 Real World Worry Dataset
本论文提出 Real World Worry Dataset (RWWD),一个基于英国的5000条文本回应(2500长文本,2500短文本)的真值集合,与在早期COVID-19封锁期间自我报告的情绪相关联,并分析语言学相关性、主题以及从文本进行情感预测建模。
The COVID-19 pandemic is having a dramatic impact on societies and economies around the world. With various measures of lockdowns and social distancing in place, it becomes important to understand emotional responses on a large scale. In this paper, we present the first ground truth dataset of emotional responses to COVID-19. We asked participants to indicate their emotions and express these in text. This resulted in the Real World Worry Dataset of 5,000 texts (2,500 short + 2,500 long texts). Our analyses suggest that emotional responses correlated with linguistic measures. Topic modeling further revealed that people in the UK worry about their family and the economic situation. Tweet-sized texts functioned as a call for solidarity, while longer texts shed light on worries and concerns. Using predictive modeling approaches, we were able to approximate the emotional responses of participants from text within 14% of their actual value. We encourage others to use the dataset and improve how we can use automated methods to learn about emotional responses and worries about an urgent problem.
研究动机与目标
- 在英国封锁期间以文本形式收集的 COVID-19 情感反应的真值数据集。
- 考察自我报告情绪与文本特征之间的语言学相关性。
- 识别公众担忧的话题,以及文本长度如何影响语言推理。
- 评估从文本预测情绪的预测模型并评估其准确性。
提出的方法
- 通过 Prolific 从英国居民收集 2,500 条长文本和 2,500 条推文长度文本(n=2,500 参与者;65.15% 为女性;平均年龄 33.84)。
- 收集关于八种情绪加担忧的9点量表自我报告情绪分数,并为每位参与者收集两条随附文本(长文本和推文长度)。
- 计算描述性统计量并与 LIWC2015 类别的相关性,以评估情绪的语言相关性。
- 在长文本和短文本上建立主题模型(stm in R),以识别普遍担忧和主题。
- 使用 TF-IDF 和 POS 特征(带 PCA)训练正则化岭回归模型,以从文本预测连续情绪评分;通过五折交叉验证使用 MAE 与 R^2 进行评估。
实验结果
研究问题
- RQ1Real World Worry Dataset 中对 COVID-19 的自我报告情绪反应是什么?
- RQ2语言特征(如 LIWC 类别)在长文本与短文本中的自我报告情绪之间有何关系?
- RQ3在长文本和推文长度文本中,关于 COVID-19 的公共担忧的主题有哪些?
- RQ4使用回归,文本特征在多大程度上能预测连续情绪评分(焦虑、恐惧、悲伤、担忧)?
- RQ5短文本(推文长度)数据在情感推断方面的局限性有哪些?
主要发现
- 长文本显示的 LIWC 类别与自我报告情绪之间的相关性强于短文本。
- 担忧与家庭提及相关,在较小程度上与朋友提及相关,在长文本中。
- 推文长度文本被视为团结呼吁,而较长文本揭示对健康、就业与经济的更深担忧。
- 岭回归可以从文本近似情绪反应,对长文本解释最高达到16%的方差,对短文本最高达到1%。
- 最佳预测性能是担忧分数(长文本 MAE 1.26,短文本 1.37;担忧的 ~14% MAPE)。
- 数据包括 2,500 条长文本(320,372 tokens)和 2,500 条短文本(69,171 tokens)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。