QUICK REVIEW

[논문 리뷰] Can Artificial Intelligence Reliably Report Chest X-Rays?: Radiologist Validation of an Algorithm trained on 2.3 Million X-Rays

Preetham Putha, Manoj Tadepalli|arXiv (Cornell University)|2018. 07. 19.

Radiomics and Machine Learning in Medical Imaging참고 문헌 37인용 수 32

한 줄 요약

이 연구는 230만 개의 레이블이 부여된 흉부 X선 영상을 기반으로 훈련된 딥러닝 알고리즘을 개발하고 검증하여 9종의 특정 이상 소견을 탐지하고 정상과 비정상 스캔을 구분한다. 이 시스템은 높은 정확도를 보였으며, 비정상 대 정상 탐지의 AUC는 0.92였고, 개별 이상 소견의 AUC는 0.89에서 0.98 사이로 나타나 레이디오로지스트가 검증한 환경에서 거의 레이디오로지스트 수준의 성능을 보였다.

ABSTRACT

Background: Chest X-rays are the most commonly performed, cost-effective diagnostic imaging tests ordered by physicians. A clinically validated AI system that can reliably separate normals from abnormals can be invaluble particularly in low-resource settings. The aim of this study was to develop and validate a deep learning system to detect various abnormalities seen on a chest X-ray. Methods: A deep learning system was trained on 2.3 million chest X-rays and their corresponding radiology reports to identify various abnormalities seen on a Chest X-ray. The system was tested against - 1. A three-radiologist majority on an independent, retrospectively collected set of 2000 X-rays(CQ2000) 2. Radiologist reports on a separate validation set of 100,000 scans(CQ100k). The primary accuracy measure was area under the ROC curve (AUC), estimated separately for each abnormality and for normal versus abnormal scans. Results: On the CQ2000 dataset, the deep learning system demonstrated an AUC of 0.92(CI 0.91-0.94) for detection of abnormal scans, and AUC(CI) of 0.96(0.94-0.98), 0.96(0.94-0.98), 0.95(0.87-1), 0.95(0.92-0.98), 0.93(0.90-0.96), 0.89(0.83-0.94), 0.91(0.87-0.96), 0.94(0.93-0.96), 0.98(0.97-1) for the detection of blunted costophrenic angle, cardiomegaly, cavity, consolidation, fibrosis, hilar enlargement, nodule, opacity and pleural effusion. The AUCs were similar on the larger CQ100k dataset except for detecting normals where the AUC was 0.86(0.85-0.86). Interpretation: Our study demonstrates that a deep learning algorithm trained on a large, well-labelled dataset can accurately detect multiple abnormalities on chest X-rays. As these systems improve in accuracy, applying deep learning to widen the reach of chest X-ray interpretation and improve reporting efficiency will add tremendous value in radiology workflows and public health screenings globally.

연구 동기 및 목표

대규모 실생활 데이터를 활용해 다수의 흉부 X선 이상 소견을 신뢰성 있게 탐지할 수 있는 딥러닝 시스템을 개발하는 것.
두 개의 독립된 데이터셋에서 레이디오로지스트 공준과 개별 레이디오로지스트 보고서를 기준으로 알고리즘 성능을 검증하는 것.
보고서 누적 문제를 줄이고 자원이 부족한 환경에서 접근성을 향상시키기 위해 AI를 활용한 자동 초진 보고 시스템의 구현 가능성을 평가하는 것.
임상 기록에 의존하지 않고 특정 영상 소견을 정확하게 탐지할 수 있는 시스템의 정확도를 평가하여 글로벌 적용 가능성을 확보하는 것.
레이디오로지스트 보고서에서 NLP를 통해 유도된 레이블이 대규모 AI 모델 훈련에 있어 전문가 레이블의 신뢰할 수 있는 대체 자료로 기능할 수 있는지 평가하는 것.

제안 방법

알고리즘은 45개의 글로벌 기관에서 수집한 익명화된 후행적 흉부 X선 영상 230만 건을 기반으로 훈련되었으며, PA, AP, 옆구리, 횡단 영상 등 다양한 영상 유형 포함.
자연어 처리(NLP) 파이프라인을 통해 레이디오로지스트 보고서에서 이상 소견 레이블을 추출하여 9가지 특정 소견(비틀어진 costophrenic 각도, 심장비대, 빈혈, 병변, 섬유화, 흉부 림프절 비대, 종양, 투명도 감소, 흉막 출혈)에 대한 훈련 레이블을 생성.
각 이상 소견에 대해 별도의 딥러닝 모델을 훈련시어 병변 특성과 공간 패턴에 따라 최적화된 탐지 성능을 확보.
검증은 두 데이터셋(CQ2000: 3명의 레이디오로지스트 다수결 기준으로 기준값 설정, CQ100k: 레이디오로지스트 보고서 기준으로 기준값 설정)에서 수행.
성능 평가에는 수신기 작동 특성 곡선 아래 면적(AUC)을 사용하였으며, 각 이상 소견 및 종합 분류에 대해 95% 신뢰구간을 보고.
발견 영역을 시각화하기 위해 히트맵과 경계 상자(Bounding boxes)를 생성하였지만, 이 연구에서는 국소화 정확도에 대한 공식적 검증은 수행하지 않았다.

실험 결과

연구 질문

RQ1230만 건의 실생활 레이블이 부여된 흉부 X선 영상으로 훈련된 딥러닝 모델이 다수의 흔한 이상 소견을 레이디오로지스트 수준의 정확도로 탐지할 수 있는가?
RQ2독립된 검증 세트(2,000건)에서 이 AI 시스템의 성능은 3명의 레이디오로지스트 다수결 기준과 비교해 어떻게 나타나는가?
RQ3NLP 기반의 레이블링 접근 방식이 실생활 임상 적용에 일반화 가능한 신뢰할 수 있는 훈련 데이터를 생성하는 데 얼마나 효과적인가?
RQ4잠재적인 레이블 노이즈나 미세한 이상 소견이 존재할 수 있는 더 큰, 더 다양한 데이터셋(CQ100k)에서도 시스템의 성능이 유지되는가?
RQ5이러한 AI 시스템이 자원이 부족하거나 보고서 누적이 심한 환경에서 레이디오로지스트 워크플로우를 지원하기 위해 자동 초진 보고 기능을 효과적으로 제공할 수 있는가?

주요 결과

CQ2000 데이터셋에서 이 딥러닝 시스템은 정상 대 비정상 탐지에 대해 AUC 0.92(95% CI: 0.91–0.94)를 기록하였다.
개별 이상 소견에 대해 AUC는 흉부 림프절 비대의 경우 0.89에서 흉막 출혈의 경우 0.98까지 다양했으며, 심장비대(0.96)와 병변(0.95) 등 모든 소견에서 높은 성능를 보였다.
더 큰 CQ100k 데이터셋에서 정상 대 비정상 탐지의 AUC는 0.86(95% CI: 0.85–0.86)였으며, 이는 미세하거나 임상적으로 의미 없는 소견이 포함되어 있어 약간의 성능 저하로 보인다.
대부분의 이상 소견에 대해 CQ2000과 CQ100k 간의 AUC가 유사하여, NLP 레이블링 과정에서의 편향이 최소화되고 강건한 일반화 성능를 확보한 것으로 나타났다.
모든 소견에 대해 높은 민감도와 특이도를 보였지만, CQ100k에서는 민감도가 낮아, 레이디오로지스트가 미세한 이상 소견을 덜 적극적으로 보고한 데 기인할 수 있다.
이 연구는 대규모 NLP로 레이블링된 데이터셋이 전문가 수준의 진단 정확도를 갖는 AI 모델을 훈련하는 데 효과적임을 확인하였으며, 선별 및 워크플로우 지원 응용 분야에의 도입을 뒷받침한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.