[논문 리뷰] MURA: Large Dataset for Abnormality Detection in Musculoskeletal Radiographs
MURA 는 40,561장의 이미지, 14,863건의 연구를 가진 대규모 상지 방사선 촬영 데이터셋을 정상/비정상으로 라벨링; DenseNet-169 baseline을 이용해 이상 여부를 탐지하고 방사선 전문의와의 성능 비교. AUROC 0.929; 전체 모델 성능은 최고 방사선 전문의보다 낮지만 일부 연구 유형에서 비교 가능.
We introduce MURA, a large dataset of musculoskeletal radiographs containing 40,561 images from 14,863 studies, where each study is manually labeled by radiologists as either normal or abnormal. To evaluate models robustly and to get an estimate of radiologist performance, we collect additional labels from six board-certified Stanford radiologists on the test set, consisting of 207 musculoskeletal studies. On this test set, the majority vote of a group of three radiologists serves as gold standard. We train a 169-layer DenseNet baseline model to detect and localize abnormalities. Our model achieves an AUROC of 0.929, with an operating point of 0.815 sensitivity and 0.887 specificity. We compare our model and radiologists on the Cohen's kappa statistic, which expresses the agreement of our model and of each radiologist with the gold standard. Model performance is comparable to the best radiologist performance in detecting abnormalities on finger and wrist studies. However, model performance is lower than best radiologist performance in detecting abnormalities on elbow, forearm, hand, humerus, and shoulder studies. We believe that the task is a good challenge for future research. To encourage advances, we have made our dataset freely available at https://stanfordmlgroup.github.io/competitions/mura .
연구 동기 및 목표
- 상지 연구에 대해 정상 또는 비정상으로 라벨링된 대규모의 공개 가능한 근골격계 방사선 촬영 데이터셋을 제공한다.
- 여러 연구 유형에 걸쳐 이상을 탐지하기 위한 심층 학습 기반 베이스라인 모델을 개발하고 평가한다.
- 강력한 지표와 평가자 간 일치도(inter-rater agreement)를 사용해 모델 성능을 방사선 전문의 성능과 비교한다.
- 지역화/해석 통찰(CAMs)을 제공하고 추가 연구를 촉진하기 위해 데이터를 공개한다.
제안 방법
- 연구 내 각 이미지에서 이상 여부를 예측하기 위해 169-layer DenseNet을 사용한다.
- 이미지별 확률을 평균화하여 연구 수준의 이상 확률을 얻는다.
- 연구 유형별 가중 이진 크로스 엔트로피로 학습하여 클래스 불균형을 다룬다.
- 입력을 ImageNet 평균/표준편차로 정규화하고, 320x320으로 크기 조정하며, 데이터 증강(무작위 뒤집기, 회전)을 적용한다.
- 검증 손실 기준으로 상위 5개 모델을 앙상블하여 최종 예측을 수행하고, 방사선 전문의 라벨이 있는 테스트 세트에서 골드 스탠다드 비교를 평가한다.
실험 결과
연구 질문
- RQ1다양한 상지 방사선 촬영 보기에서 CNN이 이상 여부를 정확하게 탐지할 수 있는가?
- RQ2연구 유형(팔꿈치, 손가락, 아래팔, 손, 상완골, 어깨, 손목) 전반에서 모델의 성능이 공인 방사선의사(board-certified radiologists)와 어떻게 비교되는가?
- RQ3연구 유형별 일반적인 오류 패턴은 무엇이며 모델 성능은 인간 독자에 얼마나 근접한가?
- RQ4모델 설명(CAMs)이 방사선의사와 일치하는 임상적으로 관련 영역을 강조할 수 있는가?
주요 결과
- 모형은 테스트 세트에서 AUROC 0.929를 달성한다.
- 임계값 0.5에서 모델 민감도 0.815, 특이도 0.887이다.
- 손가락 연구에서(0.389 대 0.410) 및 손목 연구에서(0.931 대 0.931) 최고 방사선의사와 비교 가능하다.
- 전반적으로 모형 AUROC는 0.929이지만 최고 방사선의사의 작동 포인트가 모형 ROC 곡선 위에 있어 방사선의사가 전반적으로 모형보다 우수하다는 것을 시사한다.
- 팔꿈치, 아래팔, 손, 상완골, 어깨 연구에서 모형 성능은 최고 방사선의사보다 낮지만 일부 유형에서 최악의 방사선의사와 비슷할 수 있다(예: 손가락).
- CAM 시각화가 이상 예측에 기여하는 두드러진 영역을 국소화하기 위해 생성되었다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.