[논문 리뷰] Visualising COVID-19 Research
이 논문은 대규모 코로나19 연구 문헌집을 Latent Dirichlet Allocation (LDA)를 사용하여 처리함으로써 계층적 주제 지도와 추세 분석을 제공하는 자동화되고 상호작용 가능한 주제 모델링 및 시각화 시스템을 제시한다. 이 시스템은 연구 주제를 신속하게 탐색하고, 사회적 거리두기 및 팬데믹 확산과 같은 변화하는 주제를 추적하며, 국가별 출판량의 시계열 시각화를 통해 전 세계 연구 추세를 드러낸다.
The world has seen in 2020 an unprecedented global outbreak of SARS-CoV-2, a new strain of coronavirus, causing the COVID-19 pandemic, and radically changing our lives and work conditions. Many scientists are working tirelessly to find a treatment and a possible vaccine. Furthermore, governments, scientific institutions and companies are acting quickly to make resources available, including funds and the opening of large-volume data repositories, to accelerate innovation and discovery aimed at solving this pandemic. In this paper, we develop a novel automated theme-based visualisation method, combining advanced data modelling of large corpora, information mapping and trend analysis, to provide a top-down and bottom-up browsing and search interface for quick discovery of topics and research resources. We apply this method on two recently released publications datasets (Dimensions' COVID-19 dataset and the Allen Institute for AI's CORD-19). The results reveal intriguing information including increased efforts in topics such as social distancing; cross-domain initiatives (e.g. mental health and education); evolving research in medical topics; and the unfolding trajectory of the virus in different territories through publications. The results also demonstrate the need to quickly and automatically enable search and browsing of large corpora. We believe our methodology will improve future large volume visualisation and discovery systems but also hope our visualisation interfaces will currently aid scientists, researchers, and the general public to tackle the numerous issues in the fight against the COVID-19 pandemic.
연구 동기 및 목표
- 급격히 증가하고 있는 복잡한 코로나19 연구 문헌의 과제를 해결하기 위해 핵심 주제와 추세를 신속하고 직관적으로 탐색할 수 있도록 지원한다.
- 과학자와 정책결정자들을 위해 대규모 연구 문헌집을 상호작용 가능하고 계층적인 주제 시각화로 변환하는 확장성 있고 자동화된 파이프라인을 개발한다.
- 통합된 검색, 드릴다운, 추세 분석를 통해 상향식 개요와 하향식 탐색을 동시에 지원한다.
- 의료 주제, 공중보건 조치, 지역적 팬데믹 대응에 대한 연구의 시간적 변화를 시각화한다.
- 주제 모델링과 시각화의 유용성을 글로벌 보건 위기 동안 과학적 발견을 가속화하는 데서 입증한다.
제안 방법
- 이 방법은 Dimensions의 코로나19 문헌집과 앨런 인스티튜트의 CORD-19에서 추출한 제목과 초록에 대해 Latent Dirichlet Allocation (LDA)를 적용한다.
- 통제된 추상화 수준을 통해 주제를 추출함으로써 고수준 개요와 세부 하위 주제 탐색이 가능하다.
- 각 주제는 단어 클라우드, 시간에 따른 출판량을 보여주는 추세 차트, 관련 출판물에 대한 링크로 시각화된다.
- 시스템은 상호작용 가능한 브라우징을 지원한다: 주요 주제를 선택하면 하위 주제, 설명, 개별 자료로의 드릴다운이 가능하다.
- 추세 분석을 통해 특정 국가나 의료 상태에 대한 관심도 변화를 추적한다.
- 새로운 출판물이 추가될 때마다 신속하게 재처리 및 업데이트가 가능하도록 설계되어, 시의성 확보를 도모한다.
실험 결과
연구 질문
- RQ1급격히 변화하는 대규모 코로나19 연구 문헌집을 실시간으로 효과적으로 요약하고 탐색할 수 있는 방법은 무엇인가?
- RQ2글로벌 코로나19 문헌의 주제 모델링에서 어떤 연구 주제와 추세가 도출되며, 시간이 지남에 따라 어떻게 변화하는가?
- RQ3상호작용 가능한 시각화 시스템은 복잡하거나 난이도 높은 주제에 대해 관련 연구를 발견하는 데 도움이 될 수 있는가?
- RQ4출판량은 다양한 지역에서 팬데믹의 지리적 및 시간적 진행을 어떻게 반영하는가?
- RQ5자동화된 주제 모델링이 정신 건강이나 교육 영향과 같은 교차 분야 연구 이니셔티브를 어느 정도 드러낼 수 있는가?
주요 결과
- 시스템은 수천 건의 출판물을 일관되고 계층적인 주제로 요약하여 연구 환경를 즉시 이해할 수 있도록 했다.
- 사회적 거리두기 관련 연구는 70년 만에 다시 부상한 공중보건 연구의 주요 주제로 나타났다.
- 추세 분석을 통해 2020년 2월 이후 SARS 및 COV에 대한 출판물 수가 급격히 증가함을 확인했으며, 이는 바이러스에 대한 관심이 증가했음을 반영한다.
- 폐렴 관련 출판물 수는 2월에 peak에 도달한 후 감소했으며, 이는 급성 호흡기 증상에서 더 넓은 바이러스학적 및 면역학적 연구로 연구 초점이 이동했음을 시사한다.
- 시각화는 연구를 통해 팬데믹의 확산을 정확히 추적했다: 우한/중국은 3월에 peak에 도달했고, 이어 4월에 한국, 일본, 이ран, 이탈리아가 뒤이었다. 유럽과 인도는 출판량이 증가하는 추세를 보였다.
- 제목이 정보를 제공하지 못하는 경우에도 주제 기반 탐색을 통해 흐린 연구나 중요한 연구(예: 전염병 모델링에 관한 핵심 연구)를 발견할 수 있었다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.