Skip to main content
QUICK REVIEW

[论文解读] CORD-19: The COVID-19 Open Research Dataset

Lucy Lu Wang, Kyle Lo|PubMed|Apr 22, 2020
COVID-19 diagnosis using AI参考文献 86被引用 586
一句话总结

CORD-19 描述了一个不断增长的 COVID-19 及相关冠状病毒文献的开放数据集的构建、处理和使用,包括元数据统一、全文解析和社区任务支持。

ABSTRACT

The Covid-19 Open Research Dataset (CORD-19) is a growing resource of scientific papers on Covid-19 and related historical coronavirus research. CORD-19 is designed to facilitate the development of text mining and information retrieval systems over its rich collection of metadata and structured full text papers. Since its release, CORD-19 has been downloaded over 200K times and has served as the basis of many Covid-19 text mining and discovery systems. In this article, we describe the mechanics of dataset construction, highlighting challenges and key design decisions, provide an overview of how CORD-19 has been used, and describe several shared tasks built around the dataset. We hope this resource will continue to bring together the computing community, biomedical experts, and policy makers in the search for effective treatments and management policies for Covid-19.

研究动机与目标

  • 提供来自多个来源的大量、最新的 COVID-19 及历史冠状病毒论文集合。
  • 统一元数据并去重论文,以创建一个持久、规范的数据集标识符。
  • 提取并结构化全文内容(通过 S2ORC JSON)和表格数据,以支持 NLP 和 IR 任务。
  • 支持包括临床综述、信息检索工具以及供研究社区使用的共享任务等多种应用。
  • 通过考虑许可并发放分发和数据处理管道,促进每日更新和持续扩展。

提出的方法

  • 通过 Semantic Scholar 从 PubMed Central、PubMed、WHO COVID-19 Database、bioRxiv、medRxiv、arXiv 以及出版商获取论文元数据和文献。
  • 使用标识符(doi、pmc_id、pubmed_id、arxiv_id、who_covidence_id、mag_id)对论文进行聚类,形成 cord_uid 集群并保守地去重。
  • 使用 GROBID 将 PDF 解析为 TEI XML,转换为 S2ORC JSON,同时对 PMC 论文的 JATS XML 进行解析,使之转换为相同的目标格式。
  • 以 S2ORC JSON 形式发布全文解析(PDF 派生和 XML 派生),附带元数据和参考文献,包括 PDF 的 SHA-1。
  • 发布 HTML 表格解析,并应用一个独立的 PDF 表格处理管线(IBM SDU 和 GTE)来提取并匹配 188K 张表。
  • 提供具许可意识的元数据并注明版权限制;承诺每日更新并向研究使用开放。

实验结果

研究问题

  • RQ1如何从异构来源组装一个快速增长的 COVID-19 文献语料库,并保持元数据的一致性?
  • RQ2哪些处理管线能够产生适用于 NLP 和信息检索的机器可读、结构化的全文表示?
  • RQ3如何实现更新的规律化以及跨版本的标识符的持久性,以支持可重复的研究?
  • RQ4CORD-19 在支持临床综述、工具开发和围绕 COVID-19 文献的共享任务方面的作用与影响是什么?

主要发现

  • 该数据集在版本更新时已增长到超过 140K 篇论文,全文超过 72K。
  • 自 2020 年初以来,有关 Covid-19 与冠状病毒的论文超过 47K 篇,预印本 7K 篇,约占语料库的 40%。
  • 约 48% 的论文有 PDF 全文解析,约 37% 有 XML 解析(PMC 子集)。
  • 数据集在发布后的前三个月内下载次数超过 200K 次,推动了大量文本挖掘和发现系统。
  • CORD-19 能实现广泛的应用,包括临床医生的系统性综述以及大量由 AI 驱动的信息检索与提取工具;它还催生了 Kaggle 挑战和 TREC-COVID 等共享任务。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。