Skip to main content
QUICK REVIEW

[논문 리뷰] Weibo-COV: A Large-Scale COVID-19 Tweets Dataset from Webio

Yunfeng Hu, Hongbo Huang|arXiv (Cornell University)|2020. 05. 18.
Misinformation and Its Impacts참고 문헌 5인용 수 5
한 줄 요약

Weibo-COV는 코로나19 팬데믹 초기 단계인 2019년 12월 1일부터 2020년 4월 30일까지 수집된 4,000만 건이 넘는 新浪微博 게시글로 구성된 대규모이고 세밀한 데이터셋이다. 이 데이터셋에는 게시물 수준의 내용, 사용자 상호작용, 지리적 메타데이터, 재게재 네트워크가 포함되어 있어, 소셜 미디어 분석을 통한 팬데믹 감시, 조기 경고 시스템 및 유행병 탐지 연구를 가능하게 한다.

ABSTRACT

With the rapid development of COVID-19 around the world, people are requested to maintain distance and stay at home. In this scenario, extensive social interactions transfer to cyberspace, especially on social media platforms like Twitter and Sina Weibo. People generate posts to share information, express opinions and seek help during the pandemic outbreak, and these kinds of data on social media are valuable for studies to prevent COVID-19 transmissions, such as early warning and outbreaks detection. Therefore, in this paper, we release a novel and fine-grained large-scale COVID-19 social media dataset collected from Sina Weibo, named Weibo-COV, contains more than 40 million posts ranging from December 1, 2019 to April 30, 2020. Moreover, this dataset includes comprehensive information nuggets like post-level information, interactive information, location information, and repost network. We hope this dataset can promote studies of COVID-19 from multiple perspectives and enable better and rapid researches to suppress the spread of this pandemic.

연구 동기 및 목표

  • 코로나19 팬데믹 초기 단계 동안 공적 여론과 정보 유포를 연구하기 위한 대규모이고 종합적인 소셜 미디어 데이터셋의 부족을 보완하기 위해.
  • 주요 중국 소셜 미디어 플랫폼인 신장위보에서 고품질의 세밀한 데이터셋을 수집하고 정제하여 팬데믹 역학에 대한 다각도 연구를 지원하기 위해.
  • 연구자들이 위치, 사용자 상호작용, 재게재 네트워크 등의 풍부한 메타데이터를 활용하여 공중보건 위기 동안 정보 유포 및 공적 행동에 대한 연구를 강화할 수 있도록 하기 위해.
  • 실시간 공적 논의 데이터를 공개적으로 제공함으로써 빠르고 데이터 기반의 연구를 가능하게 하여 조기 경고 시스템 및 유행병 탐지에 기여하기 위해.

제안 방법

  • 2019년 12월 1일부터 2020년 4월 30일까지 신장위보에서 공식 API 및 웹 스크래핑 기법을 사용해 웹 크롤링 및 데이터 수집을 수행하였다.
  • 사용자 ID, 타임스탬프, 내용 텍스트, 지리적 위치(도시 및 성), 참여 지표(좋아요, 댓글, 재게재 수) 등 게시물 수준의 포괄적인 메타데이터 포함.
  • 공유된 콘텐츠의 연혁을 추적하여 재게재 네트워크를 구축함으로써 사용자 간 정보 확산 패턴 분석이 가능하도록 하였다.
  • 연구 목적을 위해 구조적 및 의미적 정보를 유지하면서도 개인정보 보호를 확보하기 위해 데이터 정제 및 익명화를 실시하였다.
  • 데이터 포맷 표준화 및 구조적이고 기계로 읽을 수 있는 형식으로 데이터셋을 배포하여 광범위한 접근성과 분석 파이프라인 통합을 지원하였다.

실험 결과

연구 질문

  • RQ1중국의 다양한 지역에서 코로나19 팬데믹 초기 단계 동안 공적 여론과 정보는 어떻게 변화했는가?
  • RQ2특히 재게재 네트워크를 통해 코로나19 관련 정보가 신장위보에서 어떻게 확산되었는가?
  • RQ3위보와 같은 플랫폼의 소셜 미디어 데이터는 전염병에 대한 조기 경고 및 유행병 탐지 시스템을 어떻게 지원할 수 있는가?
  • RQ4지리적 위치와 사용자 상호작용은 소셜 미디어에서 팬데믹 관련 정보의 확산에 어떤 역할을 하는가?

주요 결과

  • Weibo-COV 데이터셋은 2019년 12월 1일부터 2020년 4월 30일까지 신장위보에서 수집된 4,000만 건이 넘는 고유한 게시물을 포함하고 있으며, 팬데믹의 핵심 초반 단계를 다루고 있다.
  • 사용자 수준의 상호작용, 지리적 위치(도시 및 성), 전체 재게재 네트워크 구조 등 풍부한 메타데이터를 포함하여 네트워크 수준의 분석이 가능하다.
  • 게시물 수준의 내용, 참여 지표, 시간적 메타데이터를 포함함으로써 공적 논의 및 여론 추세에 대한 종단적 연구가 가능하다.
  • 이 데이터셋은 조기 경고 시스템 개발, 유행병 탐지, 공중보건 긴급 상황에서의 행동 분석 등 다양한 연구 응용 분야를 지원한다.
  • 이 데이터셋의 공개는 주요 소셜 미디어 플랫폼에서의 대규모 실세계 데이터 소스를 제공함으로써 팬데믹 대응 연구를 가속화할 것으로 기대된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.