QUICK REVIEW

[논문 리뷰] COVIDGR dataset and COVID-SDNet methodology for predicting COVID-19 based on Chest X-Ray images

Siham Tabik, Anabel Gómez-Ríos|arXiv (Cornell University)|2020. 06. 02.

COVID-19 diagnosis using AI참고 문헌 25인용 수 26

한 줄 요약

이 논문은 사타구니 전후면 흉부 X선(CT) 영상 852장으로 구성된 균형 잡히고 동질적인 COVIDGR-1.0 데이터셋을 소개하며, 분할, 데이터 증강, 특징 변환를 통합한 딥러닝 프레임워크인 COVID-SDNet 방법론을 제안한다. 이 방법은 중증 환자에서 97.72%의 정확도를 달성하고 일반화 능력이 뛰어나며, 특히 중증 및 중등도 질환에서 강력한 성능을 보이며 조기 진단을 위한 신뢰할 수 있는 분류 시스템을 제공한다.

ABSTRACT

Currently, Coronavirus disease (COVID-19), one of the most infectious diseases in the 21st century, is diagnosed using RT-PCR testing, CT scans and/or Chest X-Ray (CXR) images. CT (Computed Tomography) scanners and RT-PCR testing are not available in most medical centers and hence in many cases CXR images become the most time/cost effective tool for assisting clinicians in making decisions. Deep learning neural networks have a great potential for building COVID-19 triage systems and detecting COVID-19 patients, especially patients with low severity. Unfortunately, current databases do not allow building such systems as they are highly heterogeneous and biased towards severe cases. This paper is three-fold: (i) we demystify the high sensitivities achieved by most recent COVID-19 classification models, (ii) under a close collaboration with Hospital Universitario Clínico San Cecilio, Granada, Spain, we built COVIDGR-1.0, a homogeneous and balanced database that includes all levels of severity, from normal with Positive RT-PCR, Mild, Moderate to Severe. COVIDGR-1.0 contains 426 positive and 426 negative PA (PosteroAnterior) CXR views and (iii) we propose COVID Smart Data based Network (COVID-SDNet) methodology for improving the generalization capacity of COVID-classification models. Our approach reaches good and stable results with an accuracy of $97.72\% \pm 0.95 \%$, $86.90\% \pm 3.20\%$, $61.80\% \pm 5.49\%$ in severe, moderate and mild COVID-19 severity levels (Paper accepted for publication in Journal of Biomedical and Health Informatics). Our approach could help in the early detection of COVID-19. COVIDGR-1.0 along with the severity level labels are available to the scientific community through this link https://dasci.es/es/transferencia/open-data/covidgr/.

연구 동기 및 목표

CXR 영상로 COVID-19 분류를 위한 균형 잡히고 동질적이며 임상적으로 관련성이 있는 데이터셋의 부족을 해결하기 위해.
기존 딥러닝 모델의 과대포지티브 민감도 주장의 진실을 드러내기 위해 현재 벤치마크에서의 데이터 편향과 불균형을 폭 드러내기 위해.
모든 중증도 수준의 COVID-19에서 성능을 향상시키는 강력하고 일반화 능력이 뛰어난 딥러닝 방법론(COVID-SDNet)을 개발하기 위해.
Grad-CAM 기반의 주의 맵과 반대 클래스에 대한 반성적 설명을 통해 임상적 신뢰도와 검증 가능성을 높이기 위해.
높은 신뢰도를 갖춘 분류 시스템을 통해 중등도 및 중증 환자의 조기 진단을 가능하게 하기 위해.

제안 방법

저자들은 스페인 그라나다에 소재한 Hospital Universitario Clínico San Cecilio와의 긴밀한 협력으로, 정상(RT-PCR 양성), 경증, 중증, 중증도로 나누어진 네 가지 중증도 수준에서 균형 잡힌 표현을 확보한 COVIDGR-1.0 데이터셋을 구축하였다.
이 데이터셋은 전후면 시각에서 426건의 양성 및 426건의 음성 PA-뷰 CXR 영상으로 구성되어 있으며, 영상의 영상학적 일관성을 확보하기 위해 수정된 RALE 점수를 사용해 중증도 수준을 라벨링하였다.
제안된 COVID-SDNet 방법론은 세 가지 핵심 구성요소를 통합한다: (1) 기관지 폐 영역의 의미적 분할, (2) 소수 클래스의 강화를 위한 생성적 적대적 네트워크(GANs) 기반 데이터 증강, (3) 병변 영역을 강조하기 위한 주의 메커니즘을 이용한 특징 변환.
모델의 설명 가능성은 개선된 Grad-CAM 방법을 통해 달성되며, 예측에 영향을 주는 영역을 강조하는 히트맵과 반대 클래스에 대한 반성적 설명을 생성한다.
프레임워크는 정확도, 민감도, 특이도를 기준으로 중증도 수준별로 성능을 측정하기 위해 오차 제곱합의 5개 분할 교차검증을 사용해 훈련 및 평가되었다.
모델은 중증도 수준 간 일반화 능력에 대해 평가되었으며, 특히 시각적 특징가 부족한 경증 및 정상 환자에서의 성능에 특별한 주목을 기울였다.

실험 결과

연구 질문

RQ1현재의 COVID-19 분류를 위한 딥러닝 모델들이 높은 민감도를 달성하는 이유는 무엇이며, 데이터 불균형과 이질성은 이러한 결과에 어떤 역할을 하는가?
RQ2균형 잡히고 동질적이며 임상적으로 주석이 된 CXR 데이터셋은 딥러닝 모델의 일반화 능력과 신뢰도를 향상시키는 데 기여하는가?
RQ3COVID-SDNet 프레임워크에 통합된 분할, 데이터 증강, 특징 변환 기법이 다양한 병변 중증도 수준에서 모델 성능과 강건성을 향상시키는가?
RQ4Grad-CAM과 같은 주의 기반 설명 방법은 CXR 영상에 대한 AI 기반 진단 시스템의 임상적 신뢰도를 어느 정도 향상시킬 수 있는가?
RQ5제안된 방법론은 중등도 및 중증 환자를 효과적으로 진단할 수 있으며, 경증 및 정상-PCR 양성 환자에서 안정성을 유지할 수 있는가?

주요 결과

COVIDGR-1.0 데이터셋은 네 가지 중증도 수준에서 각각 426건의 양성 및 음성 CXR 영상으로 균형 잡힌 분포를 확보하여 기존 데이터셋에 비해 훨씬 낮은 편향을 보였다.
COVID-SDNet 모델은 중증 환자에서 97.72% ± 0.95%의 정확도, 중등도 환자에서 86.90% ± 3.20%, 경증 환자에서 61.80% ± 5.49%의 정확도를 기록하여 중증 및 중등도 질환에서 뛰어난 성능을 보였다.
모델는 중증 및 중등도 질환에서 명확한 병변 특징(예: 혼탁, 기저귀 투과성 병변)이 존재할 경우 높은 일반화 능력을 보였다.
Grad-CAM 히트맵 기반의 설명 가능성 분석을 통해 모델이 폐 침윤, 혼탁, 관절염 등의 관심 영역을 정확히 식별하고 있으며, 주의 맵이 영상학적 결과와 일치함을 확인하였다.
반성적 설명 분석을 통해 모델의 예측은 강건하며, 반대 클래스의 예측은 임상적으로 타당한 해부학적 영역에 의해 유도됨을 확인하여 모델의 투명성을 향상시켰다.
이 데이터셋과 방법론은 https://dasci.es/es/transferencia/open-data/covidgr/ 에 공개되어 있어 재현성과 향후 연구를 지원한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.