[논문 리뷰] Twitter discussions and emotions about COVID-19 pandemic: a machine learning approach
이 연구는 2020년 3월 1일부터 4월 21일까지 400만 개의 트위터 메시지를 분석하여, 잠재적 디리히레트 분할(Latent Dirichlet Allocation, LDA)과 정서 분석을 활용해 코로나19에 대한 공적 논의에서 지배적인 주제, 테마 및 감정을 규명한다. 연구 결과, 신규 확진자와 사망자에 대해 논의할 때 공포가 지배적인 정서임을 확인하였고, 패닉 기간 전체에 걸친 논의에서는 기대감, 신뢰, 분노, 공포가 특징을 이룬다. 이는 트위터가 실시간 공중보건 감시에 유용하다는 점을 시사한다.
The objective of the study is to examine coronavirus disease (COVID-19) related discussions, concerns, and sentiments that emerged from tweets posted by Twitter users. We analyze 4 million Twitter messages related to the COVID-19 pandemic using a list of 25 hashtags such as "coronavirus," "COVID-19," "quarantine" from March 1 to April 21 in 2020. We use a machine learning approach, Latent Dirichlet Allocation (LDA), to identify popular unigram, bigrams, salient topics and themes, and sentiments in the collected Tweets. Popular unigrams include "virus," "lockdown," and "quarantine." Popular bigrams include "COVID-19," "stay home," "corona virus," "social distancing," and "new cases." We identify 13 discussion topics and categorize them into five different themes, such as "public health measures to slow the spread of COVID-19," "social stigma associated with COVID-19," "coronavirus news cases and deaths," "COVID-19 in the United States," and "coronavirus cases in the rest of the world". Across all identified topics, the dominant sentiments for the spread of coronavirus are anticipation that measures that can be taken, followed by a mixed feeling of trust, anger, and fear for different topics. The public reveals a significant feeling of fear when they discuss the coronavirus new cases and deaths than other topics. The study shows that Twitter data and machine learning approaches can be leveraged for infodemiology study by studying the evolving public discussions and sentiments during the COVID-19. Real-time monitoring and assessment of the Twitter discussion and concerns can be promising for public health emergency responses and planning. Already emerged pandemic fear, stigma, and mental health concerns may continue to influence public trust when there occurs a second wave of COVID-19 or a new surge of the imminent pandemic.
연구 동기 및 목표
- 소셜미디어를 통한 코로나19 패닉에 대한 공적 논의, 우려 및 정서를 분석한다.
- 패닉 초기 단계 동안 트위터 논의에서 두드러진 주제와 테마를 특정한다.
- 다양한 논의 주제에 걸쳐 공포, 분노, 기대감, 신뢰와 같은 지배적인 감정을 평가한다.
- 트위터 데이터와 기계학습이 인포데미올로지 및 공중보건 긴급 대응에 어떻게 기여할 수 있는지 평가한다.
제안 방법
- 2020년 3월 1일부터 4월 21일까지 코로나19 관련 25개 해시태그를 사용해 400만 개의 트윗을 수집하였다.
- 잠재적 디리히레트 분할(Latent Dirichlet Allocation, LDA)을 적용하여 13개의 고유한 논의 주제를 식별하고, 이를 다섯 가지 주요 테마로 분류하였다.
- 트윗 코퍼스에서 인기 있는 유니그램(예: '바이러스', '봉쇄')과 바이그램(예: '집에 머물기', '사회적 거리 두기')을 특정하였다.
- 정서 분석을 수행하여 주제별로 지배적인 감정, 특히 기대감, 공포, 분노, 신뢰를 분류하였다.
- 테마를 공중보건 조치, 사회적 낙인, 확진자/사망자 보고, 미국 관련 논의, 글로벌 사례로 분류하였다.
- 기계학습을 활용해 공중보건 응용을 위한 실시간으로 변화하는 공적 정서와 우려를 지ap도화하였다.
실험 결과
연구 질문
- RQ1패닉 초기 단계 동안 트위터 공적 논의에서 가장 자주 다뤄지는 주제와 테마는 무엇인가?
- RQ2공포, 분노, 기대감, 신뢰와 같은 정서가 다양한 논의 주제에 따라 어떻게 변화하는가?
- RQ3사용자가 신규 확진자와 사망자에 대해 논의할 때 지배적인 정서 반응은 무엇이며, 다른 패닉 관련 주제와 비교해 어떻게 다를까?
- RQ4트위터 데이터에 기계학습 모델을 적용할 경우, 실시간 공중보건 감시 및 긴급 계획 수립에 얼마나 기여할 수 있는가?
주요 결과
- 가장 흔한 유니그램은 '바이러스', '봉쇄', '격리'였고, 주요 바이그램은 '코로나19', '집에 머물기', '사회적 거리 두기'였다.
- 13개의 고유한 논의 주제가 식별되었고, 이는 공중보건 조치 및 사회적 낙인을 포함한 다섯 가지 테마로 분류되었다.
- 신규 확진자와 사망자에 대해 논의할 때 공포가 지배적인 정서로 나타났으며, 다른 감정들보다 강도가 높았다.
- 모든 주제에서 보호 조치에 대한 기대감이 가장 높은 정서였고, 그 다음으로는 신뢰, 분노, 공포의 혼합 감정이 나타났다.
- 본 연구는 트위터 데이터와 기계학습이 공중보건 긴급 상황에서 변화하는 공적 정서와 우려를 효과적으로 추적할 수 있음을 입증한다.
- 지속적인 패닉 관련 공포, 낙인 및 정신건강 문제는 향후 패닉의 확산 또는 두 번째 파동 동안 공적 신뢰를 약화시킬 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.