QUICK REVIEW

[논문 리뷰] CORD-19: The COVID-19 Open Research Dataset

Lucy Lu Wang, Kyle Lo|PubMed|2020. 04. 22.

COVID-19 diagnosis using AI참고 문헌 86인용 수 586

한 줄 요약

CORD-19은 COVID-19 및 관련 코로나바이러스 문헌의 확장되는 오픈 데이터 세트의 구성, 처리, 및 사용을 설명하며, 메타데이터 조화, 전문 텍스트 구문 분석, 그리고 커뮤니티 태스크 지원을 포함한다.

ABSTRACT

The Covid-19 Open Research Dataset (CORD-19) is a growing resource of scientific papers on Covid-19 and related historical coronavirus research. CORD-19 is designed to facilitate the development of text mining and information retrieval systems over its rich collection of metadata and structured full text papers. Since its release, CORD-19 has been downloaded over 200K times and has served as the basis of many Covid-19 text mining and discovery systems. In this article, we describe the mechanics of dataset construction, highlighting challenges and key design decisions, provide an overview of how CORD-19 has been used, and describe several shared tasks built around the dataset. We hope this resource will continue to bring together the computing community, biomedical experts, and policy makers in the search for effective treatments and management policies for Covid-19.

연구 동기 및 목표

다수의 소스에서 COVID-19 및 과거 코로나바이러스 논문의 크고 최신 컬렉션을 제공한다.
메타데이터를 조화하고 논문을 중복 제거하여 지속적이고 표준화된 데이터셋 식별자를 생성한다.
전체 텍스트 내용(S2ORC JSON을 통해) 및 표 형식 데이터를 추출하고 구조화하여 NLP 및 IR 작업을 가능하게 한다.
임상 검토, 정보 검색 도구, 연구 커뮤니티를 위한 공유 작업을 포함한 다양한 응용 분야를 지원한다.
라이선스 인식 분배 및 데이터 처리 파이프라인으로 일일 업데이트와 지속적 확장을 촉진한다.

제안 방법

PubMed Central, PubMed, WHO COVID-19 데이터베이스, bioRxiv, medRxiv, arXiv, 그리고 게시자로부터 시맨틱 스팔(Semantic Scholar)을 통해 논문 메타데이터와 문서를 수집한다.
doi, pmc_id, pubmed_id, arxiv_id, who_covidence_id, mag_id 등의 식별자를 사용하여 논문을 클러스터링하고 cord_uid 클러스터를 형성하며 보수적으로 중복 제거를 수행한다.
GROBID를 사용해 PDF를 TEI XML로 파싱하고 이를 S2ORC JSON으로 변환하며, PMC 논문에 대해서도 JATS XML을 동일한 대상 형식으로 파싱한다.
메타데이터와 참고문헌을 포함한 PDF 파생 및 XML 파생의 전체 텍스트 파싱을 S2ORC JSON으로 공개하고, PDF의 SHA-1을 포함한다.
HTML 표 파싱을 공개하고 별도의 PDF 표 처리 파이프라인(IBM SDU 및 GTE)을 적용하여 188K개의 표를 추출하고 매칭한다.
라이선스 인식 메타데이터를 제공하고 저작권 제약에 주의하며; 연구 사용을 위한 일일 업데이트 및 개방성을 약속한다.

실험 결과

연구 질문

RQ1상대적으로 다양한 소스에서 빠르게 성장하는 코로나바이러스를 포함한 문헌 말뭉치를 일관된 메타데이터로 어떻게 구축할 수 있는가?
RQ2기계가 읽을 수 있고 NLP 및 정보 검색에 적합한 구조화된 전체 텍스트 표현을 어떤 처리 파이프라인이 산출하는가?
RQ3업데이트를 정기화하고 식별자를 재현 가능한 연구를 지원하기 위해 지속적으로 유지하는 방법은?
RQ4COVID-19 문헌을 둘러싼 임상 검토, 도구 개발, 공유 작업을 가능하게 하는 데 있어 CORD-19의 역할과 영향은 무엇인가?

주요 결과

데이터세트는 버전 업데이트 시점에 140K건이 넘는 논문과 72K건이 넘는 전체 텍스트로 성장했다.
2020년 초부터 Covid-19 및 코로나바이러스에 관한 47K건 이상 논문과 7K건의 프리프린트가 공개되었고, 이는 말뭉치의 거의 40%에 해당한다.
약 48%의 논문이 PDF 전체 텍스트 파싱을 가지며, 약 37%는 XML 파싱을 갖는다(PMC 하위집합).
출시 후 처음 3개월간 데이터세트는 200K회 이상 다운로드되어 수많은 텍스트 마이닝 및 발견 시스템을 촉진했다.
CORD-19는 임상가의 체계적 검토 및 수많은 AI 기반 정보 검색/추출 도구를 포함한 광범위한 응용을 가능하게 하며, Kaggle 도전 과제와 TREC-COVID 같은 공유 작업을 촉발했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.