Skip to main content
QUICK REVIEW

[論文レビュー] Visualising COVID-19 Research

Pierre Le Bras, Azimeh Gharavi|arXiv (Cornell University)|May 13, 2020
Computational and Text Analysis Methods参考文献 17被引用数 27
ひとこと要約

本論文は、大規模なCOVID-19研究文書コーパスをLatent Dirichlet Allocation (LDA) を用いて処理し、傾向分析を伴う階層的トピック図を生成する、自動的かつインタラクティブなトピックモデリングおよび可視化システムを提示する。このシステムにより、研究テーマの迅速な発見が可能となり、社会的距離の確保やパンデミックの広がりといった進化するトピックを追跡でき、国ごとの出版件数の時系列可視化を通じて世界的な研究動向を明らかにすることができる。

ABSTRACT

The world has seen in 2020 an unprecedented global outbreak of SARS-CoV-2, a new strain of coronavirus, causing the COVID-19 pandemic, and radically changing our lives and work conditions. Many scientists are working tirelessly to find a treatment and a possible vaccine. Furthermore, governments, scientific institutions and companies are acting quickly to make resources available, including funds and the opening of large-volume data repositories, to accelerate innovation and discovery aimed at solving this pandemic. In this paper, we develop a novel automated theme-based visualisation method, combining advanced data modelling of large corpora, information mapping and trend analysis, to provide a top-down and bottom-up browsing and search interface for quick discovery of topics and research resources. We apply this method on two recently released publications datasets (Dimensions' COVID-19 dataset and the Allen Institute for AI's CORD-19). The results reveal intriguing information including increased efforts in topics such as social distancing; cross-domain initiatives (e.g. mental health and education); evolving research in medical topics; and the unfolding trajectory of the virus in different territories through publications. The results also demonstrate the need to quickly and automatically enable search and browsing of large corpora. We believe our methodology will improve future large volume visualisation and discovery systems but also hope our visualisation interfaces will currently aid scientists, researchers, and the general public to tackle the numerous issues in the fight against the COVID-19 pandemic.

研究の動機と目的

  • 急速に増加する複雑なCOVID-19研究文献の課題に対処し、主要なテーマや動向を迅速かつ直感的に発見できる仕組みを提供すること。
  • 科学者や政策立案者向けに、インタラクティブで階層的なトピック可視化に変換できる、スケーラブルで自動化されたパイプラインを構築すること。
  • 統合された検索、ドリルダウン、傾向分析を通じて、上位からの概要と下位からの探索の両方を可能にする。
  • 医療分野のトピック、公衆衛生対策、地域別のパンデミック対応に関する研究の時間的変化を可視化すること。
  • グローバルな健康危機の最中におけるトピックモデリングと可視化の実用性を示すこと。

提案手法

  • 本手法は、Dimensions社のCOVID-19コーパスおよびアレン研究所のCORD-19から得たタイトルおよび要約に対して、Latent Dirichlet Allocation (LDA) を適用する。
  • 制御された抽象度レベルでトピックを抽出することで、高レベルの概要と詳細なサブトピックの両方の探索が可能になる。
  • 各トピックは、ワードクラウド、出版件数の時間的推移を示すトレンドチャート、関連する出版物へのリンクを用いて可視化される。
  • システムはインタラクティブなブラウジングをサポートしており、主要トピックを選択するとサブトピック、説明、個々のリソースへのドリルダウンが可能になる。
  • 傾向分析により、特定の国や医学的状態に関する関心の変化を追跡する。
  • 新しい出版物が追加されるたびに迅速に再処理・更新が可能となるようにパイプラインが設計されており、タイムリーな情報提供が保証される。

実験結果

リサーチクエスチョン

  • RQ1大規模かつ急速に変化するCOVID-19研究コーパスを、リアルタイムで効果的に要約・探索することは可能か?
  • RQ2グローバルなCOVID-19文献のトピックモデリングからどのような研究的テーマと動向が浮かび上がり、それらは時間とともにどのように変化するか?
  • RQ3インタラクティブな可視化システムは、複雑または不明瞭なトピックにおいて、関連する研究の発見を改善できるか?
  • RQ4出版件数は、地域ごとのパンデミックの進行状況をどのように反映しているか?
  • RQ5自動化されたトピックモデリングは、精神的健康や教育分野への影響といった、分野横断的な研究動向をどの程度明らかにできるか?

主な発見

  • システムは、数千件の出版物を一目で理解できる一貫性のある階層的トピックに要約し、研究の全体像を即座に把握可能にした。
  • 社会的距離の確保に関する研究は、70年ぶりに顕著な再発見を遂げた重要なテーマとして浮上した。
  • 傾向分析により、2020年2月以降、SARSおよびCOVに関する出版物が急増したことが明らかになった。これは、ウイルスに注目が集まるようになってきたことを示している。
  • 肺炎に関する出版件数は2月にピークに達し、その後減少した。これは、急性呼吸器症状から、より広範なウイルス学的・免疫学的研究への研究焦点の移行を示している。
  • 可視化は、パンデミックの広がりを正確に追跡した:武漢/中国が3月にピークに達し、その後韓国、日本、イラン、イタリアが4月に続き、ヨーロッパとインドでも出版件数が上昇した。
  • タイトルが情報をほとんど示さないにもかかわらず、トピックベースのナビゲーションにより、エピデミックモデリングに関する重要な研究など、関連性はあるが目立たない出版物の発見が可能になった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。