[論文レビュー] CORD-19: The COVID-19 Open Research Dataset
CORD-19は、COVID-19および関連コロナウイルス文献の成長するオープンデータセットの構築、処理、利用を説明します。メタデータの整合、全文解析、コミュニティのタスク支援を含みます。
The Covid-19 Open Research Dataset (CORD-19) is a growing resource of scientific papers on Covid-19 and related historical coronavirus research. CORD-19 is designed to facilitate the development of text mining and information retrieval systems over its rich collection of metadata and structured full text papers. Since its release, CORD-19 has been downloaded over 200K times and has served as the basis of many Covid-19 text mining and discovery systems. In this article, we describe the mechanics of dataset construction, highlighting challenges and key design decisions, provide an overview of how CORD-19 has been used, and describe several shared tasks built around the dataset. We hope this resource will continue to bring together the computing community, biomedical experts, and policy makers in the search for effective treatments and management policies for Covid-19.
研究の動機と目的
- 複数の情報源からCOVID-19および過去のコロナウイルス論文の大規模で最新のコレクションを提供する。
- メタデータを整合させ、論文を重複排除して、永続的で標準的なデータセット識別子を作成する。
- 全文コンテンツ(S2ORC JSON経由)および表形式データを抽出・構造化して、NLPとIRタスクを可能にする。
- 臨床的レビュー、情報検索ツール、研究コミュニティ向けの共有タスクなど、さまざまなアプリケーションを支援する。
- ライセンスに配慮した配布とデータ処理パイプラインにより、日次更新と継続的拡張を促進する。
提案手法
- PubMed Central、PubMed、WHO COVID-19 Database、bioRxiv、medRxiv、arXiv、およびSemantic Scholar経由で論文メタデータとドキュメントを取り込む。
- 論文を識別子(doi、pmc_id、pubmed_id、arxiv_id、who_covidence_id、mag_id)でクラスタリングし、cord_uidクラスタを形成して conservatively 重複排除する。
- GROBIDを用いてPDFをTEI XMLに解析し、S2ORC JSONへ変換、PMC論文はJATS XMLも同じターゲット形式へ解析する。
- メタデータと文献情報、文献リストを含むS2ORC JSONでPDF由来およびXML由来の全文解析を公開する。PDFのSHA-1も含める。
- HTMLテーブル解析を公開し、別のPDFテーブル処理パイプライン(IBM SDUおよびGTE)を適用して188Kのテーブルを抽出・照合する。
- ライセンスに配慮したメタデータの提供と著作権制約への注意を行い、日次更新と研究利用の開放性を約束する。
実験結果
リサーチクエスチョン
- RQ1矛盾のないメタデータを用いて、異種ソースから急速に増大するCOVID-19文献コーパスをどのように組み立てられるか。
- RQ2機械可読で構造化された全文表現を生成する処理パイプラインは、NLPと情報検索に適しているか。
- RQ3再現可能な研究を支援するため、更新をどのように規則化し、識別子をリリース間で永続化できるか。
- RQ4CORD-19の臨床的レビュー、ツール開発、およびCOVID-19文献周辺の共有タスクを実現する上での役割と影響は何か。
主な発見
- データセットはバージョン更新時点で140,000件超、全文は72,000件超に拡大した。
- 2020年初頭から、Covid-19およびコロナウイルス関連の論文は4万7千件超、プレプリントは7千件超で、コーパスの約40%を占める。
- 論文の約48%がPDF全文解析を持ち、約37%がXML解析を持つ(PMCサブセット)。
- 公開後の最初の3か月でデータセットは20万回以上ダウンロードされ、テキストマイニングと発見システムを多数駆動している。
- CORD-19は臨床医による系統的レビューや多数のAI駆動情報検索・抽出ツールなど、広範なアプリケーションを可能にし、KaggleチャレンジやTREC-COVIDのような共用タスクを促進した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。