[论文解读] Cross-language sentiment analysis of European Twitter messages duringthe COVID-19 pandemic
本研究利用多语言神经网络与句子嵌入技术,分析了2019年12月至2020年4月期间460万条带有地理标签的欧洲推文中的情感倾向,发现大多数国家在封锁措施宣布后出现了显著且短暂的情感下降,随后逐步恢复;德国的情感曲线相对不那么负面,可能由于措施较为宽松以及文化因素影响。
Social media data can be a very salient source of information during crises. User-generated messages provide a window into people's minds during such times, allowing us insights about their moods and opinions. Due to the vast amounts of such messages, a large-scale analysis of population-wide developments becomes possible. In this paper, we analyze Twitter messages (tweets) collected during the first months of the COVID-19 pandemic in Europe with regard to their sentiment. This is implemented with a neural network for sentiment analysis using multilingual sentence embeddings. We separate the results by country of origin, and correlate their temporal development with events in those countries. This allows us to study the effect of the situation on people's moods. We see, for example, that lockdown announcements correlate with a deterioration of mood in almost all surveyed countries, which recovers within a short time span.
研究动机与目标
- 分析新冠疫情期间欧洲推文数据中整体人群的情感趋势。
- 探究公众情感与国家政策事件(如封锁宣布和病例激增)的相关性。
- 评估在非欧洲数据集上训练的多语言情感分析模型在跨语言情感检测中的表现。
- 比较不同国家的情感模式,识别文化与政策因素对公众情绪的影响。
提出的方法
- 使用Twitter API通过全球边界框收集2019年12月至2020年4月期间的468万条带有地理标签的多语言推文,并通过点在多边形内测试筛选出欧洲地区的数据。
- 在Sentiment140数据集上训练神经网络,采用预训练的多语言句子嵌入,模型包含一个128个单元的ReLU层和一个输出层,用于生成介于0(负面)到1(正面)之间的情感分数。
- 训练过程中使用均方误差损失函数,并应用50%的dropout进行正则化。
- 按国家和时间对情感结果进行分段,并单独分析包含新冠相关关键词的推文。
- 通过时间对齐方法,将情感趋势与国家层面的事件(如封锁宣布和病例增加)进行相关性分析。
- 使用Hugging Face Transformers库实现多语言句子嵌入,并在Sentiment140测试集上评估模型性能。
实验结果
研究问题
- RQ1在新冠疫情期间的最初几个月里,欧洲各国推文上的公众情感如何演变?
- RQ2国家政策事件(如封锁宣布)在多大程度上与集体情感变化相关?
- RQ3包含新冠相关关键词的推文情感与各国整体情感趋势相比有何差异?
- RQ4为何德国在情感模式上与其他欧洲国家明显不同,特别是在情感水平和对封锁的反应方面?
- RQ5在非欧洲数据集上训练的情感模型能否有效泛化到多语言的欧洲推文数据?
主要发现
- 在大多数欧洲国家,封锁宣布后出现了显著且短暂的情感下降,随后在数周内恢复。
- 包含新冠相关关键词的推文情感在关键词使用量上升初期极为负面,但随时间推移逐渐转为更积极,且在所有国家(除德国外)均低于整体情感平均水平。
- 德国整体情感曲线较为正面,且在2020年3月封锁宣布后未出现显著下降,可能由于措施较宽松以及公众对政府应对措施的满意度较高。
- 英国在3月初出现情感峰值,可能与政府初期未实施封锁的政策有关,但此后情感持续下降,且在研究期间未见恢复。
- 从2019年12月到2020年4月,欧洲整体呈现情感下降趋势,情感低谷与病例激增和政策变化等关键疫情事件相吻合。
- 该模型在Sentiment140测试集上表现优异,均方误差(MSE)为0.028,表明即使在非欧洲数据集上训练,也能实现可靠的情感分类。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。