Skip to main content
QUICK REVIEW

[논문 리뷰] COVIDGR dataset and COVID-SDNet methodology for predicting COVID-19 based on Chest X-Ray images

Siham Tabik, Anabel Gómez-Ríos|arXiv (Cornell University)|2020. 06. 02.
COVID-19 diagnosis using AI참고 문헌 25인용 수 26
한 줄 요약

이 논문은 사타구니 전후면 흉부 X선(CT) 영상 852장으로 구성된 균형 잡히고 동질적인 COVIDGR-1.0 데이터셋을 소개하며, 분할, 데이터 증강, 특징 변환를 통합한 딥러닝 프레임워크인 COVID-SDNet 방법론을 제안한다. 이 방법은 중증 환자에서 97.72%의 정확도를 달성하고 일반화 능력이 뛰어나며, 특히 중증 및 중등도 질환에서 강력한 성능을 보이며 조기 진단을 위한 신뢰할 수 있는 분류 시스템을 제공한다.

ABSTRACT

Currently, Coronavirus disease (COVID-19), one of the most infectious diseases in the 21st century, is diagnosed using RT-PCR testing, CT scans and/or Chest X-Ray (CXR) images. CT (Computed Tomography) scanners and RT-PCR testing are not available in most medical centers and hence in many cases CXR images become the most time/cost effective tool for assisting clinicians in making decisions. Deep learning neural networks have a great potential for building COVID-19 triage systems and detecting COVID-19 patients, especially patients with low severity. Unfortunately, current databases do not allow building such systems as they are highly heterogeneous and biased towards severe cases. This paper is three-fold: (i) we demystify the high sensitivities achieved by most recent COVID-19 classification models, (ii) under a close collaboration with Hospital Universitario Clínico San Cecilio, Granada, Spain, we built COVIDGR-1.0, a homogeneous and balanced database that includes all levels of severity, from normal with Positive RT-PCR, Mild, Moderate to Severe. COVIDGR-1.0 contains 426 positive and 426 negative PA (PosteroAnterior) CXR views and (iii) we propose COVID Smart Data based Network (COVID-SDNet) methodology for improving the generalization capacity of COVID-classification models. Our approach reaches good and stable results with an accuracy of $97.72\% \pm 0.95 \%$, $86.90\% \pm 3.20\%$, $61.80\% \pm 5.49\%$ in severe, moderate and mild COVID-19 severity levels (Paper accepted for publication in Journal of Biomedical and Health Informatics). Our approach could help in the early detection of COVID-19. COVIDGR-1.0 along with the severity level labels are available to the scientific community through this link https://dasci.es/es/transferencia/open-data/covidgr/.

연구 동기 및 목표

  • CXR 영상로 COVID-19 분류를 위한 균형 잡히고 동질적이며 임상적으로 관련성이 있는 데이터셋의 부족을 해결하기 위해.
  • 기존 딥러닝 모델의 과대포지티브 민감도 주장의 진실을 드러내기 위해 현재 벤치마크에서의 데이터 편향과 불균형을 폭 드러내기 위해.
  • 모든 중증도 수준의 COVID-19에서 성능을 향상시키는 강력하고 일반화 능력이 뛰어난 딥러닝 방법론(COVID-SDNet)을 개발하기 위해.
  • Grad-CAM 기반의 주의 맵과 반대 클래스에 대한 반성적 설명을 통해 임상적 신뢰도와 검증 가능성을 높이기 위해.
  • 높은 신뢰도를 갖춘 분류 시스템을 통해 중등도 및 중증 환자의 조기 진단을 가능하게 하기 위해.

제안 방법

  • 저자들은 스페인 그라나다에 소재한 Hospital Universitario Clínico San Cecilio와의 긴밀한 협력으로, 정상(RT-PCR 양성), 경증, 중증, 중증도로 나누어진 네 가지 중증도 수준에서 균형 잡힌 표현을 확보한 COVIDGR-1.0 데이터셋을 구축하였다.
  • 이 데이터셋은 전후면 시각에서 426건의 양성 및 426건의 음성 PA-뷰 CXR 영상으로 구성되어 있으며, 영상의 영상학적 일관성을 확보하기 위해 수정된 RALE 점수를 사용해 중증도 수준을 라벨링하였다.
  • 제안된 COVID-SDNet 방법론은 세 가지 핵심 구성요소를 통합한다: (1) 기관지 폐 영역의 의미적 분할, (2) 소수 클래스의 강화를 위한 생성적 적대적 네트워크(GANs) 기반 데이터 증강, (3) 병변 영역을 강조하기 위한 주의 메커니즘을 이용한 특징 변환.
  • 모델의 설명 가능성은 개선된 Grad-CAM 방법을 통해 달성되며, 예측에 영향을 주는 영역을 강조하는 히트맵과 반대 클래스에 대한 반성적 설명을 생성한다.
  • 프레임워크는 정확도, 민감도, 특이도를 기준으로 중증도 수준별로 성능을 측정하기 위해 오차 제곱합의 5개 분할 교차검증을 사용해 훈련 및 평가되었다.
  • 모델은 중증도 수준 간 일반화 능력에 대해 평가되었으며, 특히 시각적 특징가 부족한 경증 및 정상 환자에서의 성능에 특별한 주목을 기울였다.

실험 결과

연구 질문

  • RQ1현재의 COVID-19 분류를 위한 딥러닝 모델들이 높은 민감도를 달성하는 이유는 무엇이며, 데이터 불균형과 이질성은 이러한 결과에 어떤 역할을 하는가?
  • RQ2균형 잡히고 동질적이며 임상적으로 주석이 된 CXR 데이터셋은 딥러닝 모델의 일반화 능력과 신뢰도를 향상시키는 데 기여하는가?
  • RQ3COVID-SDNet 프레임워크에 통합된 분할, 데이터 증강, 특징 변환 기법이 다양한 병변 중증도 수준에서 모델 성능과 강건성을 향상시키는가?
  • RQ4Grad-CAM과 같은 주의 기반 설명 방법은 CXR 영상에 대한 AI 기반 진단 시스템의 임상적 신뢰도를 어느 정도 향상시킬 수 있는가?
  • RQ5제안된 방법론은 중등도 및 중증 환자를 효과적으로 진단할 수 있으며, 경증 및 정상-PCR 양성 환자에서 안정성을 유지할 수 있는가?

주요 결과

  • COVIDGR-1.0 데이터셋은 네 가지 중증도 수준에서 각각 426건의 양성 및 음성 CXR 영상으로 균형 잡힌 분포를 확보하여 기존 데이터셋에 비해 훨씬 낮은 편향을 보였다.
  • COVID-SDNet 모델은 중증 환자에서 97.72% ± 0.95%의 정확도, 중등도 환자에서 86.90% ± 3.20%, 경증 환자에서 61.80% ± 5.49%의 정확도를 기록하여 중증 및 중등도 질환에서 뛰어난 성능을 보였다.
  • 모델는 중증 및 중등도 질환에서 명확한 병변 특징(예: 혼탁, 기저귀 투과성 병변)이 존재할 경우 높은 일반화 능력을 보였다.
  • Grad-CAM 히트맵 기반의 설명 가능성 분석을 통해 모델이 폐 침윤, 혼탁, 관절염 등의 관심 영역을 정확히 식별하고 있으며, 주의 맵이 영상학적 결과와 일치함을 확인하였다.
  • 반성적 설명 분석을 통해 모델의 예측은 강건하며, 반대 클래스의 예측은 임상적으로 타당한 해부학적 영역에 의해 유도됨을 확인하여 모델의 투명성을 향상시켰다.
  • 이 데이터셋과 방법론은 https://dasci.es/es/transferencia/open-data/covidgr/ 에 공개되어 있어 재현성과 향후 연구를 지원한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.