[논문 리뷰] Cross-language sentiment analysis of European Twitter messages duringthe COVID-19 pandemic
이 연구는 2019년 12월부터 2020년 4월까지 유럽 전역의 지리적 태그가 부여된 460만 건이 넘는 다국어 트위터 메시지에 문장 임bedding을 사용한 다국어 신경망을 적용하여 정서 분석을 수행하였으며, 봉쇄 조치 발표 이후 대부분의 국가에서 정서가 급격히 낮아졌고 이후 회복되는 경향을 보였으며, 독일은 더 적은 부정적 정서 곡선을 보였는데, 이는 더 엄격하지 않은 조치와 문화적 요인 때문일 수 있다.
Social media data can be a very salient source of information during crises. User-generated messages provide a window into people's minds during such times, allowing us insights about their moods and opinions. Due to the vast amounts of such messages, a large-scale analysis of population-wide developments becomes possible. In this paper, we analyze Twitter messages (tweets) collected during the first months of the COVID-19 pandemic in Europe with regard to their sentiment. This is implemented with a neural network for sentiment analysis using multilingual sentence embeddings. We separate the results by country of origin, and correlate their temporal development with events in those countries. This allows us to study the effect of the situation on people's moods. We see, for example, that lockdown announcements correlate with a deterioration of mood in almost all surveyed countries, which recovers within a short time span.
연구 동기 및 목표
- 코로나19 패닉 초기 단계 동안의 유럽 트위터 데이터에서 대중의 정서 추세를 분석하기 위해.
- 봉쇄 조치와 감염자 수 급증과 같은 국가 정책 이벤트와 공중 정서의 상관관계를 조사하기 위해.
- 유럽 외부 데이터셋으로 훈련된 다국어 정서 분석 모델이 다국어 정서 탐지에 얼마나 효과적으로 일반화되는지 평가하기 위해.
- 국가 간 정서 패턴을 비교하여 문화적 요인과 정책적 영향이 대중의 정서에 미치는 영향을 규명하기 위해.
제안 방법
- 지리적 태그가 부여된 다국어 트위터 트윗 468만 건을 2019년 12월부터 2020년 4월까지 트위터 API를 사용하여 수집하였으며, 글로벌 경계 상자와 점-다각형 테스트를 통해 유럽 지역으로 필터링하였다.
- 사전 훈련된 다국어 문장 임베딩을 사용하여 Sentiment140 데이터셋에서 신경망을 훈련하였으며, 128개 유닛의 ReLU 레이어와 0(부정)에서 1(긍정) 사이의 정서 점수를 출력하는 시그모이드 출력층을 사용하였다.
- 훈련 중 정규화를 위해 평균 제곱 오차 손실와 50% 드롭아웃을 적용하였다.
- 국가 및 시간대별로 정서 결과를 분할하고, 코로나19 관련 키워드를 포함한 트윗을 별도로 분석하였다.
- 시간적 정렬을 통해 정서 추세를 봉쇄 조치 및 감염자 수 증가와 같은 국가 이벤트와 연관지어 분석하였다.
- 다국어 문장 임베딩을 위해 Hugging Face Transformers 라이브러리를 사용하였으며, Sentiment140 테스트 세트에서 모델 성능을 평가하였다.
실험 결과
연구 질문
- RQ1코로나19 패닉 초기 몇 달 동안의 유럽 국가 트위터에서 공중 정서는 어떻게 변화했는가?
- RQ2봉쇄 조치와 같은 국가 정책 이벤트가 집단 정서 변화와 얼마나 관련이 있는가?
- RQ3코로나19 관련 키워드를 포함한 트윗의 정서는 각 국가의 전체 정서 추세와 어떻게 비교되는가?
- RQ4왜 독일은 다른 유럽 국가들과는 달리 독특한 정서 패턴을 보이며, 특히 봉쇄 조치에 대한 반응과 정서 수준에서 두드러지는가?
- RQ5유럽 외부 데이터셋으로 훈련된 정서 모델이 다국어 유럽 트위터 데이터에 효과적으로 일반화되는가?
주요 결과
- 대부분의 유럽 국가에서 봉쇄 조치 발표 이후 평균 정서가 급격히 낮아졌고, 수 주 내로 회복되는 경향을 보였다.
- 코로나19 관련 키워드를 포함한 트윗의 정서는 사용 빈도가 증가하기 시작할 무렵 매우 부정적이었지만 시간이 지남에 따라 점점 더 긍정적으로 변화했으며, 독일를 제외한 모든 국가에서 전체 정서 평균 이하로 유지되었다.
- 독일는 전반적으로 더 적은 부정적 정서 곡선을 보였고, 2020년 3월 봉쇄 조치 발표 후에도 뚜렷한 하락이 없었는데, 이는 더 엄격하지 않은 조치와 정부 대응에 대한 높은 국민 지지 때문일 수 있다.
- 영국은 3월 초에 정서 정점이 있었으며, 이는 정부의 초기 봉쇄 미적용 접근 때문일 수 있으나, 이후 정서가 하락했고 연구 기간 내내 회복되지 않았다.
- 2019년 12월부터 2020년 4월까지의 기간 동안 유럽 전역에서 정서가 하향 추세를 보였으며, 감염자 수 급증 및 정책 변화와 같은 주요 패닉 이벤트와 정서 하락이 일치하였다.
- 모델은 Sentiment140 테스트 세트에서 뛰어난 성능을 보였으며, 평균 제곱 오차(MSE)가 0.028로 나타나, 비-유럽 데이터셋으로 훈련된 후에도 신뢰할 수 있는 정서 분류가 가능함을 시사하였다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.