Skip to main content
QUICK REVIEW

[論文レビュー] Word frequency and sentiment analysis of twitter messages during Coronavirus pandemic

Nikhil Kumar Rajput, Bhavya Ahuja Grover|arXiv (Cornell University)|Apr 8, 2020
Sentiment Analysis and Opinion Mining参考文献 25被引用数 55
ひとこと要約

この論文は2020年1月からのTwitterデータを分析し、語彙頻度をべき法則モデル(unigram, bigram, trigram)で推定し、WHOおよび公的ツイートの感情分析をTextBlobを用いて実施します。

ABSTRACT

The COVID-19 epidemic has had a great impact on social media conversation, especially on sites like Twitter, which has emerged as a hub for public reaction and information sharing. This paper deals by analyzing a vast dataset of Twitter messages related to this disease, starting from January 2020. Two approaches were used: a statistical analysis of word frequencies and a sentiment analysis to gauge user attitudes. Word frequencies are modeled using unigrams, bigrams, and trigrams, with power law distribution as the fitting model. The validity of the model is confirmed through metrics like Sum of Squared Errors (SSE), R-squared ($R^2$), and Root Mean Squared Error (RMSE). High $R^2$ and low SSE/RMSE values indicate a good fit for the model. Sentiment analysis is conducted to understand the general emotional tone of Twitter users messages. The results reveal that a majority of tweets exhibit neutral sentiment polarity, with only 2.57\% expressing negative polarity.

研究の動機と目的

  • COVID-19関連のTwitterメッセージの語用パターンを2020年1月以降に特徴づける。
  • パワ-lawのモデルを用いて語彙頻度分布(unigram, bigram, trigram)をフィットし goodness-of-fit を評価する。
  • WHOおよび一般公開ツイートを含むTwitterデータを用いてCOVID-19に対する公的感情を評価する。

提案手法

  • COVID-19に関連するTwitterデータからunigram, bigram, および trigram の頻度を計算する。
  • rank-frequency分布に対して f(x)=a x^b のべき法則モデルを適合させ、SSE, R^2, RMSEで評価する。
  • PythonのTextBlobを用いてツイートの感情極性を算出し、positive/neutral/negative に分類する。

実験結果

リサーチクエスチョン

  • RQ1COVID-19関連ツイートにおけるunigram, bigram, trigramの語頻度分布のパターンはどうなるか?
  • RQ2unigram, bigram, trigramの頻度分布はべき法則モデルに従い、フィットはどの程度良いか?
  • RQ3WHOと一般公衆のCOVID-19関連ツイートの全体的な感情分布はどうなるか?

主な発見

Token TypeabSSER^2RMSE
Unigram0.1024-1.2730.0011630.91720.00108
Bigram0.08926-1.3750.0013290.87180.001154
Trigram0.01968-0.52668.34E-050.94610.000289
  • Unigramおよびbigramの頻度は裾が重いべき分布に従い、trigramの頻度も適合するが指数は異なる。
  • べき法則フィットは高いR^2値を示す(unigram 0.9172、bigram 0.8718、trigram 0.9461)と低いSSE/RMSEで良好な適合を示す。
  • ほとんどのツイートは中立または肯定的であり、WHOのツイートは約60%肯定、24%中立、16%否定、一般公衆のツイートは29%肯定、55%中立、16%否定。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。