Skip to main content
QUICK REVIEW

[논문 리뷰] MIMIC-CXR-JPG, a large publicly available database of labeled chest radiographs

Alistair E. W. Johnson, Tom Pollard|arXiv (Cornell University)|2019. 01. 21.
COVID-19 diagnosis using AI인용 수 256
한 줄 요약

이 논문은 377,110장의 JPEG 흉부 X선 이미지로 구성된 MIMIC-CXR-JPG v2.0.0를 제시하며, 14개의 병리 라벨이 방사선 보고서로부터 도출된 비식별화 데이터셋으로, 의료 컴퓨터 비전 태스크의 벤치마크를 위해 공개된다.

ABSTRACT

Chest radiography is an extremely powerful imaging modality, allowing for a detailed inspection of a patient's thorax, but requiring specialized training for proper interpretation. With the advent of high performance general purpose computer vision algorithms, the accurate automated analysis of chest radiographs is becoming increasingly of interest to researchers. However, a key challenge in the development of these techniques is the lack of sufficient data. Here we describe MIMIC-CXR-JPG v2.0.0, a large dataset of 377,110 chest x-rays associated with 227,827 imaging studies sourced from the Beth Israel Deaconess Medical Center between 2011 - 2016. Images are provided with 14 labels derived from two natural language processing tools applied to the corresponding free-text radiology reports. MIMIC-CXR-JPG is derived entirely from the MIMIC-CXR database, and aims to provide a convenient processed version of MIMIC-CXR, as well as to provide a standard reference for data splits and image labels. All images have been de-identified to protect patient privacy. The dataset is made freely available to facilitate and encourage a wide range of research in medical computer vision.

연구 동기 및 목표

  • MIMIC-CXR를 가공한 JPEG 형식 부분집합을 제공하여 흉부 방사선 사진에 대한 컴퓨터 비전 연구를 촉진한다.
  • 연구 간 공정한 벤치마킹을 가능하게 하기 위해 표준화된 데이터 분할과 라벨을 제공한다.
  • 의미 있는 임상 이미지 내용을 보존하면서 비식별화 및 HIPAA 안전성을 보장한다.

제안 방법

  • MIMIC-CXR에서 DICOM 이미지를 추출하고 12비트에서 8비트 깊이 정규화를 통해 JPEG로 변환한다.
  • 히스토그램 평활화 및 방향 정규화를 적용하여 대조를 개선한다.
  • 자동 텍스트 주석 감지 및 수동 검토를 통해 PHI를 비식별화한다.
  • 라벨은 두 개의 오픈소스 라벨러(NegBio와 CheXpert)를 사용하여 방사선 보고서에서 생성한다.
  • CXR 이미지와 연구 수를 포함한 학습, 검증, 테스트 분할을 제공하고 검증 세트를 공개적으로 릴리스한다.

실험 결과

연구 질문

  • RQ1대규모의 라벨이 부여된 JPEG 흉부 X선 데이터셋이 방사선 영상의 컴퓨터 비전 방법에 대한 견고한 벤치마킹을 촉진할 수 있는가?
  • RQ2표준화된 분할 및 라벨링 접근 방식이 모델과 연구 간 재현 가능한 평가를 가능하게 하는가?
  • RQ3자동 라벨러(NegBio, CheXpert)가 이 데이터셋에서 수동 방사선과의 라벨링에 비해 얼마나 잘 수행하는가?
  • RQ4비식별화 및 이미지 전처리가 연구를 위한 데이터세트 활용성에 어떤 영향을 미치는가?

주요 결과

  • 데이터셋은 2011–2016년에 BIDMC에서 수집된 227,827개의 영상 연구에서 377,110장의 흉부 X-ray를 포함한다.
  • 이미지는 비식별화되었고 표준화된 전처리와 방사선 보고서에서 도출된 14개의 라벨로 JPEG로 변환되었다.
  • 라벨은 NegBio와 CheXpert를 사용하여 생성되었고 라벨 충돌에 대한 불일치 범주가 포함된다.
  • 학습, 검증 및 테스트 분할이 제공되며 테스트 세트는 평가 무결성을 위해 공개적으로 비공개로 보류된다.
  • 687개의 수동으로 표기된 보고서를 대상으로 한 검증 연구는 라벨러 및 작업 간 성능이 가변적임을 보였으며, 특정 라벨은 Pneumonia, Atelectasis, Pleural Effusion 등에서 높은 F1-score를 달성했고, 일부는 낮은 편이었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.