[论文解读] Word frequency and sentiment analysis of twitter messages during Coronavirus pandemic
本文分析自2020年1月至今的推特数据,通过幂律建模(unigram、bigram、trigram)研究词频,并使用 TextBlob 对 WHO 与公众推文进行情感分析。
The COVID-19 epidemic has had a great impact on social media conversation, especially on sites like Twitter, which has emerged as a hub for public reaction and information sharing. This paper deals by analyzing a vast dataset of Twitter messages related to this disease, starting from January 2020. Two approaches were used: a statistical analysis of word frequencies and a sentiment analysis to gauge user attitudes. Word frequencies are modeled using unigrams, bigrams, and trigrams, with power law distribution as the fitting model. The validity of the model is confirmed through metrics like Sum of Squared Errors (SSE), R-squared ($R^2$), and Root Mean Squared Error (RMSE). High $R^2$ and low SSE/RMSE values indicate a good fit for the model. Sentiment analysis is conducted to understand the general emotional tone of Twitter users messages. The results reveal that a majority of tweets exhibit neutral sentiment polarity, with only 2.57\% expressing negative polarity.
研究动机与目标
- 描述自2020年1月起的与COVID-19相关的推特信息中的用词模式。
- 使用幂律对词频分布(unigram、bigram、trigram)进行建模并评估拟合优度。
- 通过推特数据(包括 WHO 与公众推文)评估对 COVID-19 的公众情感态度。
提出的方法
- 从与 COVID-19 相关的推文中计算 unigram、bigram 和 trigram 的频率。
- 将幂律模型 f(x)=a x^b 拟合到等级-频率分布,并使用 SSE、R^2、RMSE 进行评估。
- 使用 Python 的 TextBlob 计算推文情感极性,并将其分类为 positive、neutral 或 negative。
实验结果
研究问题
- RQ1COVID-19 相关推文在 unigram、bigram、trigram 层面的词频分布模式是什么?
- RQ2unigram、bigram、trigram 频率分布是否符合幂律模型,拟合的好坏如何?
- RQ3来自 WHO 与公众的 COVID-19 相关推文的总体情感分布如何?
主要发现
| 词元类型 | a | b | SSE | R^2 | RMSE |
|---|---|---|---|---|---|
| Unigram | 0.1024 | -1.273 | 0.001163 | 0.9172 | 0.00108 |
| Bigram | 0.08926 | -1.375 | 0.001329 | 0.8718 | 0.001154 |
| Trigram | 0.01968 | -0.5266 | 8.34E-05 | 0.9461 | 0.000289 |
- Unigram 和 bigram 频率遵循带有重尾的幂律分布,而 trigram 频率也符合,但指数不同。
- 幂律拟合显示较高的 R^2 值(unigram 0.9172,bigram 0.8718,trigram 0.9461)且 SSE/RMSE 低,表明拟合良好。
- 大多数推文为中性或正向;WHO 推文约 60% 积极、24% 中性、16% 消极,而公众推文为 29% 积极、55% 中性、16% 消极。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。