Skip to main content
QUICK REVIEW

[논문 리뷰] VinDr-CXR: An open dataset of chest X-rays with radiologist's annotations

Ha Q. Nguyen, Khanh Lam|arXiv (Cornell University)|2020. 12. 30.
COVID-19 diagnosis using AI인용 수 29
한 줄 요약

VinDr-CXR는 방사선의사가 검증한 22개의 국소 병변 경계 상자와 6개의 전반적 질환 레이블을 포함한 익명화된 흉부 X선 촬영 영상 18,000장을 담은 공개 데이터셋이다. 이 데이터셋은 맞춤형 DICOM 레이블링 플랫폼을 사용해 제작되었으며, 훈련용(15,000장)과 테스트용(3,000장) 데이터셋이 각각 3명과 5명의 방사선의사에 의해 독립적으로 레이블링되어, 의료 영상 분야에서 인공지능 모델을 훈련시키고 평가하기 위한 고품질의 공감대 기반 레이블을 제공한다.

ABSTRACT

Most of the existing chest X-ray datasets include labels from a list of findings without specifying their locations on the radiographs. This limits the development of machine learning algorithms for the detection and localization of chest abnormalities. In this work, we describe a dataset of more than 100,000 chest X-ray scans that were retrospectively collected from two major hospitals in Vietnam. Out of this raw data, we release 18,000 images that were manually annotated by a total of 17 experienced radiologists with 22 local labels of rectangles surrounding abnormalities and 6 global labels of suspected diseases. The released dataset is divided into a training set of 15,000 and a test set of 3,000. Each scan in the training set was independently labeled by 3 radiologists, while each scan in the test set was labeled by the consensus of 5 radiologists. We designed and built a labeling platform for DICOM images to facilitate these annotation procedures. All images are made publicly available (https://www.physionet.org/content/vindr-cxr/1.0.0/) in DICOM format along with the labels of both the training set and the test set.

연구 동기 및 목표

  • 기존 공개 CXR 데이터셋에서 고품질의 국소 레이블이 부족한 문제를 해결하기 위해.
  • 이미지 수준 및 영역 수준의 레이블을 모두 포함한 대규모 공개 데이터셋을 제공하기 위해.
  • 여러 전문 방사선의사의 공감대 레이블링을 통해 레이블링 편향을 줄이고 신뢰성을 향상시키기 위해.
  • 의료 영상 레이블링을 효율적이고 정확하게 수행할 수 있도록 DICOM 기반의 확장 가능한 레이블링 플랫폼을 개발하기 위해.
  • 익명화되고 HIPAA/GDPR 기준을 충족하는 데이터를 공개함으로써 인공지능 기반 의료 진단 분야에서 재현 가능한 연구를 지원하기 위해.

제안 방법

  • 베트남의 두 대형 병원에서 확보한 100,000장의 CXR 스캔을 후행적으로 수집하여, 공개용으로 18,000장을 선정하였다.
  • 방사선의사가 전반적 진단과 국소 병변 경계 상자를 모두 레이블링할 수 있도록 맞춤형 DICOM 호환 레이블링 플랫폼을 개발하였다.
  • 훈련 세트 영상에 대해 세 명의 방사선의사가 독립적으로 레이블링을 수행하였고, 테스트 세트 영상에 대해서는 다섯 명의 방사선의사가 공감대 기반 레이블링을 실시하였다.
  • 논리적 모순(예: 병변을 표시하면서 '정상 소견 없음'을 선택하는 것)을 방지하기 위해 레이블링 플랫폼에 자동 검증 규칙을 적용하였다.
  • 모든 DICOM 메타데이터를 수동으로 익명화하고 픽셀 수준의 검토를 통해 잔여 환자 식별 정보를 모두 제거하였다.
  • 환자 식별 정보가 제거된 이미지 ID와 CSV 형식의 구조화된 레이블을 포함하여, PhysioNet를 통해 데이터셋을 공개하였다.

실험 결과

연구 질문

  • RQ1전반적 진단과 국소 병변 레이블을 모두 포함한 대규모 오픈소스 CXR 데이터셋이 흉부 이상을 탐지하고 국소화하는 데 있어 인공지능 모델의 성능을 향상시킬 수 있는가?
  • RQ2여러 방사선의사의 공감대 레이블링 방식이 단일 레이블러 또는 자동화된 레이블링 방식에 비해 레이블링 편향을 줄이고 레이블 신뢰도를 높이는 데 얼마나 기여하는가?
  • RQ3맞춤형 DICOM 기반 레이블링 플랫폼이 대규모 의료 영상 레이블링을 효율적이고 확장 가능하며 정확하게 지원할 수 있는 정도는 어느 정도인가?
  • RQ4자동화된 NLP 기반 레이블러에서 유도된 노이즈가 많거나 일관성 없는 레이블이 CXR 분석에서 딥러닝 모델의 일반화 능력에 어떤 영향을 미치는가?
  • RQ5고품질의 레이블이 포함된 공개된 익명화된 데이터셋이 의료 AI 분야에서 재현 가능한 연구를 가속화할 수 있는가?

주요 결과

  • VinDr-CXR 데이터셋은 총 18,000장의 CXR 스캔을 포함하며, 훈련 세트 15,000장, 테스트 세트 3,000장으로 구성되며, 모든 영상에 대해 고품질의 방사선의사 검증 레이블이 부여되었다.
  • 훈련 세트는 각 영상당 세 명의 방사선의사가 독립적으로 레이블링하여 높은 신뢰도를 확보하고 개인적 편향을 최소화하였다.
  • 테스트 세트는 다섯 명의 방사선의사가 공감대 기반으로 레이블링하여 벤치마킹에 대한 레이블 신뢰도를 향상시켰다.
  • 병변 국소화를 위한 22개의 해부학적 영역 레이블과 6개의 전반적 질환 레이블이 포함되어 있어, 병변 탐지 및 분류 작업을 모두 지원한다.
  • 훈련 세트의 70% 이상(10,606장)이 '정상 소견 없음'으로 레이블링되어 실제 임상에서의 유병률을 반영하고 있다.
  • 수동 및 알고리즘 검토를 통해 모든 환자 식별 정보가 제거된 익명화 처리가 이루어졌으며, HIPAA 및 GDPR 규정을 준수하기 위해 환자 관련 정보가 완전히 제거되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.