[논문 리뷰] NAIST COVID: Multilingual COVID-19 Twitter and Weibo Dataset
이 논문은 2020년 1월 20일부터 3월 24일까지 코로나19와 관련된 영어, 일본어 트위터 및 중국어 웨이보의 2,000만 건이 넘는 마이크로블로깅을 포함하는 다국어 데이터셋인 NAIST 코로나 데이터셋을 소개한다. 이 데이터셋은 키워드 기반 수집을 통해 다국어 소셜 미디어 분석을 가능하게 하며, GitHub에서 공개되어 팬데믹 정서, 정보 확산 및 공중보건 커뮤니케이션에 관한 연구를 지원한다.
Since the outbreak of coronavirus disease 2019 (COVID-19) in the late 2019, it has affected over 200 countries and billions of people worldwide. This has affected the social life of people owing to enforcements, such as "social distancing" and "stay at home." This has resulted in an increasing interaction through social media. Given that social media can bring us valuable information about COVID-19 at a global scale, it is important to share the data and encourage social media studies against COVID-19 or other infectious diseases. Therefore, we have released a multilingual dataset of social media posts related to COVID-19, consisting of microblogs in English and Japanese from Twitter and those in Chinese from Weibo. The data cover microblogs from January 20, 2020, to March 24, 2020. This paper also provides a quantitative as well as qualitative analysis of these datasets by creating daily word clouds as an example of text-mining analysis. The dataset is now available on Github. This dataset can be analyzed in a multitude of ways and is expected to help in efficient communication of precautions related to COVID-19.
연구 동기 및 목표
- 코로나19 연구를 위한 공개된 다국어 소셜 미디어 데이터셋이 부족한 점, 특히 중국과 같은 초기 팬데믹 지역에서의 부족함을 보완하기 위해.
- 팬데믹 초기 단계 동안 실시간 소셜 미디어 논의를 대규모로 분석할 수 있도록 해, 글로벌 공중보건 감시를 지원하기 위해.
- 초기 팬데믹 기간 동안 다국어 공중 정서, 정보 확산 및 정책 관련 토론을 포괄하는 표준화되고 접근 가능한 데이터셋을 제공하기 위해.
- 미국, 일본, 중국의 주요 소셜 미디어 플랫폼에서의 데이터를 포함시켜 언어 및 문화 간 비교 연구를 촉진하기 위해.
- 팬데믹 커뮤니케이션, 정서 추세 및 공중보건 발표가 소셜 미디어 행동에 미치는 영향에 관한 연구를 장려하기 위해.
제안 방법
- 세 단계로 키워드 기반 쿼리를 사용해 마이크로블로깅을 수집: 초기 유행기(우한 + 폐렴/코로나19), 공식 명명기(우한 + 코로나19), 완화된 검색기(개별 키워드).
- 영어 및 일본어 트윗은 트위터 검색 API를, 중국어 웨이보 게시물은 웹 크롤러를 사용하여 수집하였으며, 재게재 및 비원본 콘텐츠를 제거하여 데이터 유일성 확보.
- 언어별 키워드 적용: 영어(우한, 폐렴, 코로나19, 코로나19), 일본어(武漢, 肺炎, コロナ, COVID-19), 중국어(武汉, 肺炎, 冠状病毒, 新冠肺炎).
- 매일 0:00~23:59 JST 기간 동안 데이터를 수집하여 시간적 일관성 확보 및 중복 최소화.
- 공개된 논의의 변화 양상과 주요 주제를 시간에 따라 시각화하기 위해 질적 텍스트 마이닝 기법으로 매일 단어 구름 생성.
- 트위터 및 웨이보의 이용 약관을 준수하여 GitHub에 데이터셋을 배포하였으며, 데이터 신선도 유지를 위해 지속적인 업데이트 수행.
실험 결과
연구 질문
- RQ1팬데믹 초기 단계 동안 영어, 일본어, 중국어 소셜 미디어에서 코로나19에 대한 공개 논의가 어떻게 변화했는가?
- RQ2팬데믹 발발기 및 진행 단계와 관련된 다국어 소셜 미디어 논의에서 지배적인 주제와 키워드는 무엇인가?
- RQ3주요 공중보건 이벤트(예: WHO의 팬데믹 선언, 올림픽 취소, 인간 간 전파 확인 등)는 소셜 미디어 활동과 언어 사용에 어떤 영향을 미쳤는가?
- RQ4소셜 미디어 트렌드가 사회적 거리 두기 및 집에 머무르기와 같은 예방 조치에 대한 공중의 정서와 인식을 어느 정도 반영하는가?
- RQ5팬데믹 대응 및 미디어 보도의 지역적 차이가 언어 간 소셜 미디어 내러티브에 어떻게 영향을 미치는가?
주요 결과
- 데이터셋은 총 2,000만 건 이상의 마이크로블로깅을 포함한다: 영어 1,600만 건, 일본어 900만 건, 중국어 18만 건으로 2020년 1월 20일부터 3월 24일까지 수집.
- 영어 데이터셋은 2020년 3월 11일 WHO가 코로나19를 팬데믹으로 선언한 후 마이크로블로깅 수가 급격히 증가하였으며, 이와 동시에 'social distancing'과 'stay home'의 사용 빈도도 증가했다.
- 일본에서는 2020년 1월 28일 첫 번째 지역 전파가 발생하면서 단어 구름에 '奈良'(나라), 'バス'(버스), 'ドライブ'(운전) 등의 단어가 나타나, 우한행 관광버스 기사와 관련된 논의를 반영했다.
- 2020년 3월 24일 일본어 단어 구름에는 'オリンピック'과 '延期'가 나타나, IOC가 도쿄 2020 올림픽을 연기하기로 발표한 것을 반영했다.
- 웨이보에서는 2020년 1월 20일 중난산 박사가 인간 간 전파를 확인한 후, 단어 구름에서 '钟南山'의 빈도가 두드러지게 증가했다.
- 2020년 3월 10일 중국어 단어 구름에서 '方舱医院'(이동식 캐빈 병원)라는 용어가 두드러지게 나타났으며, 이는 우한에서 모든 이동식 병원 시설이 폐쇄된 것과 일치했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.