QUICK REVIEW

[논문 리뷰] Can we trust deep learning models diagnosis? The impact of domain shift in chest radiograph classification

Eduardo Pooch, Pedro L. Ballester|arXiv (Cornell University)|2019. 09. 03.

COVID-19 diagnosis using AI참고 문헌 19인용 수 31

한 줄 요약

이 연구는 네 가지 주요 데이터셋에서 최신 딥러닝 모델을 훈련하고 다른 도메인에서 테스트함으로써 흉부 레이저 사진 분류에서 도메인 이탈을 평가한다. 모델이 ChestX-ray14와 PadChest에서 훈련된 경우 다른 데이터셋에서 테스트할 때 성능 저하가 심각하게 발생하는 것으로 나타났으며, 반면 CheXpert와 MIMIC-CXR에서 훈련된 모델은 더 잘 일반화됨을 확인하여 데이터 분포의 차이가 의료 영상에서 모델 신뢰성에 미치는 영향이 크다는 것을 시사한다.

ABSTRACT

While deep learning models become more widespread, their ability to handle unseen data and generalize for any scenario is yet to be challenged. In medical imaging, there is a high heterogeneity of distributions among images based on the equipment that generates them and their parametrization. This heterogeneity triggers a common issue in machine learning called domain shift, which represents the difference between the training data distribution and the distribution of where a model is employed. A high domain shift tends to implicate in a poor generalization performance from the models. In this work, we evaluate the extent of domain shift on four of the largest datasets of chest radiographs. We show how training and testing with different datasets (e.g., training in ChestX-ray14 and testing in CheXpert) drastically affects model performance, posing a big question over the reliability of deep learning models trained on public datasets. We also show that models trained on CheXpert and MIMIC-CXR generalize better to other datasets.

연구 동기 및 목표

도메인 이탈로 인해 다양한 흉부 레이저 사진 데이터셋 간에 딥러닝 모델의 일반화 성능이 어떻게 영향을 받는지 평가하기 위해.
공공 데이터셋에서 훈련된 모델이 다른 병원이나 영상 센터의 새로운 데이터에서 신뢰성 있게 작동할 수 있는지 조사하기 위해.
교차 데이터셋 성능를 비교함으로써 어떤 데이터셋이 더 강건한 모델을 생성하는지 특정하기 위해.
라벨 품질과 데이터 분포의 이질성이 모델 일반화 실패에 미치는 영향을 평가하기 위해.
연구자들이 강건한 의료 영상 모델을 훈련하기 위해 대표성 있는 데이터셋을 선택하는 데 도움을 주기 위해.

제안 방법

ChestX-ray14, CheXpert, MIMIC-CXR, PadChest 네 가지 대규모 흉부 레이저 사진 데이터셋 각각에 대해 다중 레이블 분류를 위한 최신 기술의 합성곱 신경망을 훈련하였다.
실제 세계의 도메인에 배포될 경우를 시뮬레이션하기 위해 각 모델의 성능을 나머지 세 데이터셋의 테스트 세트에서 평가하였다.
모든 영상 진단 결과에 대해 모델 성능을 정량화하기 위해 AUC(Receiver Operating Characteristic 곡선 아래 면적)을 주요 지표로 사용하였다.
모델 간 성능 저하를 비교하여 어떤 원천 데이터셋이 더 일반화 가능한 모델을 생성하는지 식별하였다.
도메인 이탈의 잠재적 원인으로서 라벨 일관성과 데이터 분포의 차이를 분석하였다.
선형 그래프를 사용해 각 진단 결과에 따른 AUC 변화를 시각화하여 도메인 간 성능 안정성을 설명하였다.

실험 결과

연구 질문

RQ1한 흉부 레이저 사진 데이터셋에서 훈련된 딥러닝 모델의 성능가 다른 데이터셋에서 테스트할 경우 도메인 이탈이 어떻게 영향을 미치는가?
RQ2ChestX-ray14, CheXpert, MIMIC-CXR, PadChest 중 네 가지 주요 흉부 레이저 사진 데이터셋 중 어느 것이 다양한 도메인에서 가장 우수한 일반화 성능을 보이는가?
RQ3라벨 품질과 데이터 수집 프로토콜이 의료 영상 모델의 도메인 이탈에 어느 정도 기여하는가?
RQ4한 데이터셋에서 훈련된 모델이 다른 임상 환경에서 다른 영상 프로토콜을 사용할 경우 높은 성능을 유지할 수 있는가?
RQ5이러한 발견은 영상의학 분야에서 딥러닝 모델의 외부 검증 및 실세계 적용에 어떤 함의를 갖는가?

주요 결과

ChestX-ray14에서 훈련된 모델은 CheXpert에서 테스트할 경우 평균 AUC가 0.12 감소하였고, MIMIC-CXR에서는 0.08, PadChest에서는 0.04 감소하여 심각한 도메인 이탈이 발생함을 시사한다.
CheXpert과 MIMIC-CXR에서 훈련된 모델는 다른 데이터셋에서 테스트할 경우 기준 평균 AUC의 90% 이상을 유지하여 뛰어난 일반화 성능를 보였다.
PadChest에서 훈련된 모델는 다른 데이터셋에서 평균 AUC가 0.10 감소하였으며, 이는 각 진단 항목의 훈련 샘플 수가 적기 때문일 가능성이 높다.
모든 네 개의 테스트 세트에서 각 영상 진단 결과에 대해 가장 높은 AUC는 대부분 동일한 데이터셋에서 훈련하고 테스트했을 때 달성되었으며, 이는 강한 도메인 특화 편향이 있음을 나타낸다.
CheXpert와 MIMIC-CXR 데이터셋은 도메인 간에 더 일관되고 강건한 성능를 보이며, 실제 세계의 영상 변동성을 더 잘 반영하고 있음을 시사한다.
이 연구는 ChestX-ray14의 라벨 신뢰성 문제로 인해 일반화 성능이 떨어질 수 있음을 발견하였으며, 시각적 검토 연구 결과 라벨 정확도가 보고된 수치보다 10~30% 낮을 수 있음이 확인되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.