Skip to main content
QUICK REVIEW

[논문 리뷰] CheXpert: A Large Chest Radiograph Dataset with Uncertainty Labels and Expert Comparison

Jeremy Irvin, Pranav Rajpurkar|arXiv (Cornell University)|2019. 01. 21.
COVID-19 diagnosis using AI인용 수 28
한 줄 요약

CheXpert는 14种의 흔한 병변에 대해 불확실성 레이블이 부여된 224,316건의 흉부 레이저 영상 데이터셋을 제공하며, 딥러닝 모델의 정밀한 평가를 가능하게 한다. 이 연구는 불확실성 인식 손실 함수를 사용해 훈련된 모델이 공진화 검증된 테스트 세트에서 심장비대, 부종, 흉수를 탐지하는 데 있어 세 명의 방사선과 전문의를 초월함을 입증한다.

ABSTRACT

Large, labeled datasets have driven deep learning methods to achieve expert-level performance on a variety of medical imaging tasks. We present CheXpert, a large dataset that contains 224,316 chest radiographs of 65,240 patients. We design a labeler to automatically detect the presence of 14 observations in radiology reports, capturing uncertainties inherent in radiograph interpretation. We investigate different approaches to using the uncertainty labels for training convolutional neural networks that output the probability of these observations given the available frontal and lateral radiographs. On a validation set of 200 chest radiographic studies which were manually annotated by 3 board-certified radiologists, we find that different uncertainty approaches are useful for different pathologies. We then evaluate our best model on a test set composed of 500 chest radiographic studies annotated by a consensus of 5 board-certified radiologists, and compare the performance of our model to that of 3 additional radiologists in the detection of 5 selected pathologies. On Cardiomegaly, Edema, and Pleural Effusion, the model ROC and PR curves lie above all 3 radiologist operating points. We release the dataset to the public as a standard benchmark to evaluate performance of chest radiograph interpretation models. The dataset is freely available at https://stanfordmlgroup.github.io/competitions/chexpert .

연구 동기 및 목표

  • 14종의 흔한 병변에 대해 불확실성 레이블이 부여된 대규모 공개 흉부 레이저 영상 데이터셋을 개발하는 것.
  • 불확실성 레이블이 어떻게 효과적으로 딥러닝 모델에 통합될 수 있는지 조사하는 것.
  • 여러 명의 자격을 갖춘 방사선과 전문의가 공진화한 레이블을 기반으로 강력한 기준 표준을 설정하여 모델 평가를 수행하는 것.
  • 딥러닝 모델의 성능을 임상적으로 중요한 병변에서 인간 전문의와 비교하는 것.
  • 연구를 촉진하기 위해 데이터셋을 벤치마킹 목적으로 공개하는 것.

제안 방법

  • 자신의 규칙 기반 레이블러가 언급 추출, 분류 및 부정 탐지 기법을 사용해 자유형 방사선 보고서에서 관찰 결과와 불확실성을 추출한다.
  • 이 데이터셋은 65,240명의 환자로부터 확보한 224,316건의 정면 및 측면 흉부 X-레이를 포함하며, 14종의 병변에 대해 양성, 음성 또는 불확실성으로 분류된 레이블이 부여되어 있다.
  • 불확실성 인식 훈련 전략은 불확실성 가중치가 적용된 교차 엔트로피 손실 및 校정된 확률 출력을 사용해 평가된다.
  • 여러 시점의 영상에서 각 병변의 발생 확률을 예측하기 위해 컨volutional 신경망(CNN)이 훈련된다.
  • 모델 성능은 세 명의 방사선과 전문의가 레이블링한 200건의 세트로 검증되고, 다섯 명의 전문의가 공진화한 레이블을 기반으로 한 500건의 세트로 시험된다.
  • Grad-CAM 시각화 기법을 사용해 예측에 가장 영향을 미친 영역을 강조함으로써 모델의 주의 집중 영역을 해석한다.

실험 결과

연구 질문

  • RQ1방사선 보고서의 불확실성은 어떻게 효과적으로 모델링하고 딥러닝 훈련에 통합될 수 있는가?
  • RQ2불확실성 레이블이 부여된 데이터로 훈련된 딥러닝 모델이 핵심 병변에서 인간 전문의를 초월하는가?
  • RQ3다양한 병변에 걸쳐 불확실성 인식 손실 함수의 차이가 모델 성능에 어떤 영향을 미치는가?
  • RQ4심장비대 및 흉수와 같은 임상적으로 중요한 병변에서 모델이 개인 전문의의 성능을 뛰어넘을 수 있는가?
  • RQ5강력한 기준 표준에서 불확실성 레이블은 모델의 校정성과 일반화 능력을 얼마나 향상시키는가?

주요 결과

  • 다섯 명의 방사선과 전문의가 공진화한 테스트 세트에서, 모델은 심장비대, 부종, 흉수 탐지에서 최소한 세 명의 전문의 중 두 명을 초월했다.
  • 흉수에 대해 AUC가 0.97을 기록했고, 기흉에 대해 0.85를 기록했으며, 나머지 모든 병변은 AUC ≥ 0.9를 달성했다.
  • 흉수에 대해 모델의 ROC 및 PR 곡선은 세 명의 전문의의 운영 지점보다 모두 위에 위치했다.
  • 기침에 대해 모델은 세 명의 전문의 중 두 명을 초월했고, 기흉에 대해서는 세 명의 전문의 모두가 모델를 뛰어넘었다.
  • 모델의 스케일링된 브리어 스코어는 校정 이전의 0.110에서 플랫팅 스케일링 이후의 0.101로 향상되어 확률의 보다 정확한 校정을 의미한다.
  • Grad-CAM 시각화 결과, 모델가 각 병변과 관련된 해부학적 영역에 주의를 집중하는 것을 확인했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.