Skip to main content
QUICK REVIEW

[논문 리뷰] What is the people posting about symptoms related to Coronavirus in Bogota, Colombia?

Josimar Edinson Chire Saire, Roberto Campos Navarro|arXiv (Cornell University)|2020. 03. 25.
Data-Driven Disease Surveillance참고 문헌 7인용 수 28
한 줄 요약

이 연구는 2019년 12월 29일부터 2020년 3월 14일까지 콜롬비아 부에노스 아이레스에서 수집한 트위터 데이터를 활용해 텍스트 마이닝과 자연어 처리(NLP)를 적용하여 코로나19 증상에 대한 대중의 논의를 분석한다. 감염 확진자 수 증가와 상관관계를 보이는 증상 관련 게시물의 증가 추세를 확인하였으며, 발열, 기침, 호흡 곤란 등의 주요 증상을 특정하고, 팬데믹 기간 동안 소셜 미디어가 실시간 공중보건 감시에 유용하게 활용될 수 있음을 입증한다.

ABSTRACT

During the last months, there is an increasing alarm about a new mutation of coronavirus, covid-19 coined by World Health Organization(WHO) with an impact in many areas: economy, health, politics and others. This situation was declared a pandemic by WHO, because of the fast expansion over many countries. At the same time, people is using Social Networks to express what they think, feel or experiment, so this people are Social Sensors and helps to analyze what is happening in their city. The objective of this paper is analyze the publications of Colombian people living in Bogota with a radius of 50 km using Text Mining techniques from symptomatology approach. The results support the understanding of the spread in Colombia related to symptoms of covid19.

연구 동기 및 목표

  • 소셜 미디어를 활용해 콜롬비아 부에노스 아이레스에서의 코로나19 관련 증상에 대한 대중의 논의를 이해하기 위해.
  • 팬데믹 진행 상황과의 관련성과 시기적 적합성을 고려해 증상 언급의 중요도를 평가하기 위해.
  • 트위터가 공중보건 모니터링을 위한 실시간 감시 도구로 활용될 잠재력을 평가하기 위해.
  • 부에노스 아이레스에서 가장 자주 논의되는 증상과 그 시간적 추세를 특정하기 위해.
  • 사용자 계정 연도 분석을 통해 소셜 미디어 콘텐츠의 신뢰성 여부를 검토하기 위해.

제안 방법

  • 지리적 위치(부에노스 아이레스, 50km 이내), 언어(스페인어), 날짜 범위(2019년 12월 29일 ~ 2020년 3월 14일)를 설정하여 트위터 API를 통해 트위터 데이터를 수집하였다.
  • 스페인어로 된 증상 관련 키워드를 추출하였으며, 'fiebre', 'tos', 'dificultad_respirar', 'gripe', 'contagio' 포함.
  • 텍스트 전처리 작업을 수행: 소문자 변환, 특수문자 제거, 3자 이하 단어 제거, 불용어 필터링.
  • 일일 트윗 수, 워드 클라우드, 사용자 계정 생성 일자 분석을 활용해 신뢰성 평가를 위한 시각화 수행.
  • 공식적으로 보고된 콜롬비아 보건부의 감염 데이터와 매일의 증상 언급 빈도를 상관 분석.
  • 자연어 처리(NLP) 및 텍스트 마이닝 기법을 활용해 대중의 정서 및 증상 추세를 분석.

실험 결과

연구 질문

  • RQ1부에노스 아이레스에서 트위터를 통해 코로나19 증상에 대한 논의가 첫 번째 확진 사례 이전과 이후에 어떻게 변화했는가?
  • RQ2부에노스 아이레스에서 코로나19 관련 트위터 논의에서 가장 자주 언급된 증상은 무엇인가?
  • RQ3증상 관련 트윗의 수와 콜롬비아의 실제 확진자 수 사이에 시간적 상관관계가 존재하는가?
  • RQ4계정 생성 일자를 기반으로 볼 때, 증상에 대해 논의하는 소셜 미디어 계정의 신뢰성은 어느 정도인가?
  • RQ5팬데믹 기간 동안 소셜 미디어 데이터가 공중보건 추세의 실시간 지표로 얼마나 유용하게 활용될 수 있는가?

주요 결과

  • 2020년 3월 8일에서 14일 사이에 확진자 수 증가와 동시에 증상 관련 트윗 수가 급격히 증가하는 경향을 관찰하였다.
  • 워드 클라우드에서 가장 자주 언급된 증상은 'dolor'(통증), 'cabeza'(두통), 'fiebre'(발열), 'contagio'(감염), 'tos'(기침), 'estornudar'(재채기)였다.
  • 증상 언급 트윗의 일일 수와 콜롬비아의 실제 확진자 수 사이에 강한 자연 상관관계가 확인되었다.
  • 증상 논의를 하는 대부분의 트위터 계정이 6년 이상 된 것으로 나타나, 조작된 정보나 가짜 계정일 가능성은 낮다.
  • 워드 클라우드에서 'coronavirus'라는 용어가 두드러지게 나타나, 대중의 인식과 논의가 점차 증가하고 있음을 시사한다.
  • 본 연구는 트위터를 비롯한 소셜 미디어 데이터가 팬데믹 기간 동안 실시간 공중보건 감시에 보조적 도구로 활용될 수 있음을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.