Skip to main content
QUICK REVIEW

[논문 리뷰] Word frequency and sentiment analysis of twitter messages during Coronavirus pandemic

Nikhil Kumar Rajput, Bhavya Ahuja Grover|arXiv (Cornell University)|2020. 04. 08.
Sentiment Analysis and Opinion Mining참고 문헌 25인용 수 55
한 줄 요약

본 논문은 2020년 1월부터 Twitter 데이터를 분석하여 단어 빈도를 파워-법칙 모델링(언 unigram, bigram, trigram)을 통해 연구하고, TextBlob을 이용한 WHO 및 일반 트윗의 감정 분석을 수행한다.

ABSTRACT

The COVID-19 epidemic has had a great impact on social media conversation, especially on sites like Twitter, which has emerged as a hub for public reaction and information sharing. This paper deals by analyzing a vast dataset of Twitter messages related to this disease, starting from January 2020. Two approaches were used: a statistical analysis of word frequencies and a sentiment analysis to gauge user attitudes. Word frequencies are modeled using unigrams, bigrams, and trigrams, with power law distribution as the fitting model. The validity of the model is confirmed through metrics like Sum of Squared Errors (SSE), R-squared ($R^2$), and Root Mean Squared Error (RMSE). High $R^2$ and low SSE/RMSE values indicate a good fit for the model. Sentiment analysis is conducted to understand the general emotional tone of Twitter users messages. The results reveal that a majority of tweets exhibit neutral sentiment polarity, with only 2.57\% expressing negative polarity.

연구 동기 및 목표

  • 2020년 1월 이후의 COVID-19 관련 Twitter 메시지에서 단어 사용 패턴을 특성화한다.
  • 파워-법칙을 사용하여 단어 빈도 분포(unigram, bigram, trigram)를 모델링하고 적합도를 평가한다.
  • WHO 및 일반 대중의 트윗을 포함한 Twitter 데이터를 통해 COVID-19에 대한 공중 감성을 평가한다.

제안 방법

  • COVID-19와 관련된 Twitter 데이터에서 unigram, bigram, trigram 빈도수 계산한다.
  • 랭크-빈도 분포에 대해 f(x)=a x^b 형태의 파워-법칙 모델을 적합시키고 SSE, R^2, RMSE로 평가한다.
  • 트윗의 감정 극성을 계산하기 위해 Python TextBlob을 사용하고 긍정, 중립, 부정으로 분류한다.

실험 결과

연구 질문

  • RQ1COVID-19 관련 트윗에서 단어 빈도의 분포 패턴은 unigram, bigram, trigram에서 어떠한가?
  • RQ2unigram, bigram, trigram 빈도 분포가 파워-법칙 모델을 따르는가, 그리고 적합도는 어느 정도인가?
  • RQ3WHO와 일반 대중의 COVID-19 관련 트윗의 전반적인 감정 분포는 어떠한가?

주요 결과

토큰 유형abSSER^2RMSE
Unigram0.1024-1.2730.0011630.91720.00108
Bigram0.08926-1.3750.0013290.87180.001154
Trigram0.01968-0.52668.34E-050.94610.000289
  • Unigram 및 bigram 빈도는 꼬리가 두꺼운 파워-법칙 분포를 따르며, trigram 빈도도 적합하지만 다른 지수로 표현된다.
  • 파워-법칙 적합은 높은 R^2 값을 보이며(언어: unigram 0.9172, bigram 0.8718, trigram 0.9461) 낮은 SSE/RMSE를 보이며 우수한 적합을 나타낸다.
  • 대부분의 트윗은 중립적이거나 긍정적이다; WHO 트윗은 대략 60% 긍정, 24% 중립, 16% 부정이며, 일반 대중의 트윗은 29% 긍정, 55% 중립, 16% 부정이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.