QUICK REVIEW

[논문 리뷰] MURA Dataset: Towards Radiologist-Level Abnormality Detection in Musculoskeletal Radiographs

Pranav Rajpurkar, Jeremy Irvin|arXiv (Cornell University)|2017. 12. 11.

Artificial Intelligence in Healthcare and Education참고 문헌 25인용 수 75

한 줄 요약

이 논문은 14,982건의 연구에서 유도된 40,895장의 근골격계 레이저 영상으로 구성된 대규모 데이터셋인 MURA를 소개한다. 각 영상은 방사선 전문의에 의해 정상 또는 비정상으로 레이블이 부여되었다. MURA에서 훈련된 169층의 밀집 연결 컨볼루션 신경망을 사용하여, 방사선 전문의 수준의 비정상성 탐지 성능을 달성하였으며, 손가락 영상에서는 최고의 방사선 전문의를 초월하고, 손목 영상에서는 그 성능을 맞추는 데 성공하였다. 그러나 팔꿈치, 전완, 손, 대퇴부, 어깨 영상에서는 여전히 뒤처지는 성능을 보였다.

ABSTRACT

We introduce MURA, a large dataset of musculoskeletal radiographs containing 40,895 images from 14,982 studies, where each study is manually labeled by radiologists as either normal or abnormal. On this dataset, we train a 169-layer densely connected convolutional network to detect and localize abnormalities. To evaluate our model robustly and to get an estimate of radiologist performance, we collect additional labels from board-certified Stanford radiologists on the test set, consisting of 209 musculoskeletal studies. We compared our model and radiologists on the Cohen's kappa statistic, which expresses the agreement of our model and of each radiologist with the gold standard, defined as the majority vote of a disjoint group of radiologists. We find that our model achieves performance comparable to that of radiologists. Model performance is higher than the best radiologist performance in detecting abnormalities on finger studies and equivalent on wrist studies. However, model performance is lower than best radiologist performance in detecting abnormalities on elbow, forearm, hand, humerus, and shoulder studies, indicating that the task is a good challenge for future research. To encourage advances, we have made our dataset freely available at this https URL

연구 동기 및 목표

인간 방사선 전문의 수준의 성능을 보이는 심층 학습 모델을 개발하여 근골격계 레이저 영상에서 비정상성을 탐지하는 것.
전문가가 검증한 레이블이 부여된 대규모, 다양한, 임상적으로 관련성이 있는 근골격계 레이저 영상 데이터셋을 구축하는 것.
다수의 투표 기반 황금 표준을 사용하여 모델 성능을 방사선 전문의와 비교 평가하는 강력한 벤치마크를 제공하는 것.
심층 학습 모델이 여전히 전문 방사선 전문의에 비해 성능이 열등한 특정 해부학적 부위를 특정하는 것.
공개된 MURA 데이터셋을 통해 향후 연구를 장려하는 것.

제안 방법

저자는 14,982건의 연구에서 40,895장의 근골격계 레이저 영상을 수집하였으며, 각 영상은 방사선 전문의에 의해 정상 또는 비정상으로 레이블이 부여되었다.
비정상성을 탐지하고 국소화하기 위해 169층의 밀집 연결 컨볼루션 신경망(DenseNet)을 훈련시켰다.
성능 평가를 위해, 테스트 세트 209건에 대해 보증된 스탠포드 방사선 전문의들로부터 추가 레이블을 수집하였다.
황금 표준은 테스트 세트에서 별도의 방사선 전문의 그룹이 다수의 투표를 기반으로 정의되었다.
모델 성능 평가에는 황금 표준 및 개별 방사선 전문의와의 일치도를 측정하기 위해 코헨의 카파 통계량을 사용하였다.
성능 격차를 식별하기 위해, 모델은 손가락, 손목, 팔꿈치 등 다양한 해부학적 부위별로 별도로 평가되었다.

실험 결과

연구 질문

RQ1심층 학습 모델이 근골격계 레이저 영상에서 비정상성을 탐지하는 데 방사선 전문의 수준의 성능을 달성할 수 있는가?
RQ2다양한 해부학적 부위에서 최고의 심층 학습 모델 성능이 개별 방사선 전문의 성능과 비교해 어떻게 되는가?
RQ3어느 해부학적 부위에서 모델이 최고의 방사선 전문의에 비해 성능이 열등한가? 이는 향후 연구의 초점이 되어야 할 영역이다.
RQ4MURA 데이터셋이 비정상성 탐지 모델의 강력한 평가를 얼마나 잘 지원하는가?
RQ5신뢰할 수 있는 공준 기반 황금 표준을 사용하여, 모델의 성능를 방사선 전문의와 정량적으로 비교 평가할 수 있는가?

주요 결과

심층 학습 모델은 황금 표준과의 코헨의 카파 통계량을 통해 MURA 데이터셋에서 방사선 전문의 수준의 성능을 달성하였다.
손가락 영상에서 비정상성 탐지 성능이 최고의 개별 방사선 전문의를 초월하여, 이 부위에서 뛰어난 성능을 보였다.
손목 영상에서는 최고의 방사선 전문의와 동등한 성능을 보였으며, 탐지 정확도가 유사하였다.
팔꿈치, 전완, 손, 대퇴부, 어깨 영상에서는 최고의 방사선 전문의에 비해 비정상성 탐지 성능이 열등하여, 이 부위에서 여전히 도전 과제가 존재함을 시사하였다.
전문가가 검증한 레이블이 부여된 40,895장의 이미지를 포함한 MURA 데이터셋은 향후 의료 영상 분석 연구를 위한 강력한 기준이 되었다.
저자는 MURA 데이터셋을 공개하여 개방형 연구 및 방사선 전문의 수준의 비정상성 탐지 기술의 발전을 지원하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.