Skip to main content
QUICK REVIEW

[论文解读] Visualising COVID-19 Research

Pierre Le Bras, Azimeh Gharavi|arXiv (Cornell University)|May 13, 2020
Computational and Text Analysis Methods参考文献 17被引用 27
一句话总结

本文提出了一种自动化、交互式的主题建模与可视化系统,利用潜在狄利克雷分布(LDA)处理大规模的新冠肺炎研究语料库,生成具有趋势分析的分层主题图谱。该系统可实现研究主题的快速发现,追踪社交距离和疫情传播等演变中的主题,并通过各国出版物数量的时间序列可视化揭示全球研究趋势。

ABSTRACT

The world has seen in 2020 an unprecedented global outbreak of SARS-CoV-2, a new strain of coronavirus, causing the COVID-19 pandemic, and radically changing our lives and work conditions. Many scientists are working tirelessly to find a treatment and a possible vaccine. Furthermore, governments, scientific institutions and companies are acting quickly to make resources available, including funds and the opening of large-volume data repositories, to accelerate innovation and discovery aimed at solving this pandemic. In this paper, we develop a novel automated theme-based visualisation method, combining advanced data modelling of large corpora, information mapping and trend analysis, to provide a top-down and bottom-up browsing and search interface for quick discovery of topics and research resources. We apply this method on two recently released publications datasets (Dimensions' COVID-19 dataset and the Allen Institute for AI's CORD-19). The results reveal intriguing information including increased efforts in topics such as social distancing; cross-domain initiatives (e.g. mental health and education); evolving research in medical topics; and the unfolding trajectory of the virus in different territories through publications. The results also demonstrate the need to quickly and automatically enable search and browsing of large corpora. We believe our methodology will improve future large volume visualisation and discovery systems but also hope our visualisation interfaces will currently aid scientists, researchers, and the general public to tackle the numerous issues in the fight against the COVID-19 pandemic.

研究动机与目标

  • 为应对快速膨胀且复杂的新冠肺炎研究文献,实现关键主题与趋势的快速、直观发现。
  • 开发一种可扩展的自动化流程,将大规模研究语料库转化为供科学家和政策制定者使用的交互式分层主题可视化结果。
  • 通过集成搜索、下钻分析与趋势分析,支持自上而下的概览与自下而上的主题探索。
  • 可视化医学主题、公共卫生措施及区域疫情应对措施的研究随时间的演变过程。
  • 展示主题建模与可视化在应对全球卫生危机期间加速科学发现方面的实用性。

提出的方法

  • 该方法在两个大规模数据集(Dimensions的新冠肺炎语料库和艾伦研究所的CORD-19)的标题与摘要上应用潜在狄利克雷分布(LDA)。
  • 通过控制抽象层级提取主题,实现高层次概览与详细子主题探索的结合。
  • 每个主题均以词云、显示随时间变化的出版物数量的趋势图,以及相关文献链接进行可视化。
  • 系统支持交互式浏览:选择主主题后可显示子主题、描述信息,并可下钻至单个资源。
  • 通过趋势分析追踪研究重点的变化,例如特定国家或医学状况的关注度上升。
  • 该流程设计为可快速重新处理与更新,确保在新增文献时仍保持时效性。

实验结果

研究问题

  • RQ1如何对大规模、快速演变的新冠肺炎研究语料库实现实时有效总结与探索?
  • RQ2从全球新冠肺炎文献的主题建模中,涌现出哪些研究主题与趋势?它们如何随时间演变?
  • RQ3交互式可视化系统是否能提升相关研究的发现效率,特别是针对复杂或晦涩的主题?
  • RQ4出版物数量如何反映不同地区疫情在地理与时间上的传播进程?
  • RQ5自动化主题建模在多大程度上能揭示跨领域研究举措,例如心理健康或教育影响?

主要发现

  • 该系统成功将数千篇文献抽象为连贯的分层主题,实现了对研究格局的快速把握。
  • 社交距离研究成为显著主题,标志着公共卫生研究在70年后的显著复兴。
  • 趋势分析显示,自2020年2月起,关于SARS和COV的研究出版物数量急剧上升,反映出研究关注的集中化。
  • 肺炎相关研究的出版物数量在2月达到峰值后下降,表明研究重点已从急性呼吸道症状转向更广泛的病毒学与免疫学研究。
  • 可视化准确追踪了疫情通过研究传播的轨迹:武汉/中国在3月达到高峰,随后是韩国、日本、伊朗和意大利在4月相继上升,欧洲与印度的出版物数量也呈现上升趋势。
  • 通过基于主题的导航,系统成功发现了一些标题信息不足但内容关键的文献(如一项关于流行病建模的关键研究),实现了对晦涩但相关文献的发现。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。