[논문 리뷰] Analyzing COVID-19 on Online Social Media: Trends, Sentiments and Emotions
이 논문은 COVID-19 관련 게시물을 2020년 1월 20일부터 2020년 5월 11일까지 Twitter와 Weibo에서 분석하여 주제 트렌드, 여섯 가지 기본 감정, 그리고 감정 트리거를 매핑하고, 미국과 중국을 비교하며, 반지도학적 검색 및 BERT 기반 감정 태깅과 트리거 추출을 사용합니다.
At the time of writing, the ongoing pandemic of coronavirus disease (COVID-19) has caused severe impacts on society, economy and people's daily lives. People constantly express their opinions on various aspects of the pandemic on social media, making user-generated content an important source for understanding public emotions and concerns. In this paper, we perform a comprehensive analysis on the affective trajectories of the American people and the Chinese people based on Twitter and Weibo posts between January 20th, 2020 and May 11th 2020. Specifically, by identifying people's sentiments, emotions (i.e., anger, disgust, fear, happiness, sadness, surprise) and the emotional triggers (e.g., what a user is angry/sad about) we are able to depict the dynamics of public affect in the time of COVID-19. By contrasting two very different countries, China and the Unites States, we reveal sharp differences in people's views on COVID-19 in different cultures. Our study provides a computational approach to unveiling public emotions and concerns on the pandemic in real-time, which would potentially help policy-makers better understand people's need and thus make optimal policy.
연구 동기 및 목표
- Twitter와 Weibo에서 COVID-19에 대한 대중의 감정과 관심이 시간이 지남에 따라 어떻게 진화하는지 이해한다.
- 정교한 감정(분노, 혐오, 두려움, 행복, 슬픔, 놀라움)과 그 트리거를 식별한다.
- 미국과 중국 간의 공공 반응 차이를 밝히며 팬데믹 인식의 문화적 차이를 드러낸다.
- 정책 정보를 제공하기 위한 대중 정서와 관심사를 실시간으로 추출하는 계산 접근법을 개발한다.
제안 방법
- Seed 키워드를 이용한 식별 방법으로 COVID-19 관련 게시물을 찾는 Bootstrap 기반 반지도학습 검색, 순차 재학습 및 주목도 기반 키워드 확장을 포함한다.
- BERT를 이용한 영어 트윗의 육방향 다중 라벨 감정 분류를 수행하며 감정 설명을 프롬프트로 사용하고 출력은 sigmoid를 사용한다.
- Weibo 데이터에 대해 바람직한 문화적 맥락 라벨을 갖춘 described-BERT 모델로 중국어 감정 분류를 수행한다.
- 감정 강도 S(t,y)는 게시물의 일일 평균 P(y|x)로 계산되며 COVID가 아닌 텍스트는 0 확률로 할당된다.
- 감정에 대한 트리거는 BERT-MRC 특징을 가진 CRF 태거로 추출하며 POS, 의존성, 트위터 특유의 특징으로 강화한다.
- 최상위 트리거 언급에 대한 LDA를 사용한 비지도 트리거 클러스터링을 통해 시간에 따른 하위 범주 및 주제를 발견한다.
실험 결과
연구 질문
- RQ1Twitter와 Weibo에서 COVID-19와 관련된 주제 유행 및 정서 상태의 시간적 동태는 어떠한가?
- RQ2팬데믹 동안 여섯 가지 기본 감정은 어떻게 변동하며 그 의미론적 트리거는 무엇인가?
- RQ3미국과 중국 간의 공공 정서와 트리거에서 어떤 차이가 나타나는가?
- RQ4반지도학습의 실시간 파이프라인이 COVID-19 관련 게시물과 그 감정을 효과적으로 수집하고 추적할 수 있는가?
- RQ5분노와 걱정 하의 트리거의 하위 범주 중 어떤 것이 시간에 따라 대중의 관심사를 가장 잘 설명하는가?
주요 결과
- Weibo의 COVID 관련 게시 부담은 1월 말–2월에 정점에 도달하고 3월에도 다시 증가하는 반면, Twitter는 3월 이후 관심이 증가하는 경향을 보이나 작성 시점에 뚜렷한 감소는 보이지 않는다.
- English 트윗에 대해 BERT 기반 다중 라벨 분류기는 Micro F1 75.2 및 Macro F1 68.3을 달성; BERT-description은 Macro F1 77.0에 도달한다.
- Weibo에서 걱정은 일반 게시물 강도와 함께 정점에 도달하는 경향이 있으며; 분노는 Li Wenliang의 사망으로 인해 2월 8일경 급등; Twitter의 분노와 걱정은 미국의 발병 및 정책 이벤트와 함께 상승한다.
- 주요 분노 트리거는 봉쇄, 자가격리, 공적 인물(Trump, Pence) 및 중국 관련 주제; 걱정 트리거에는 직업, 재정, 가족 관심사, 바이러스 전파가 포함된다.
- 트리거를 LDA로 클러스터링하면 중국 관련 분노, 봉쇄, 병원 치료 등 해석 가능한 주제가 드러나며 걱정 주제는 재정, 가족, 사망/확진 증가와 관련된다.
- Flowers: bootstrapping three rounds yielded F1 scores of 0.74, 0.82, and 0.86 for COVID-related tweet classification (early rounds).
- Overall, the study demonstrates a real-time capable framework to quantify public affect and its drivers during a global crisis.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.