QUICK REVIEW

[논문 리뷰] MAMMO: A Deep Learning Solution for Facilitating Radiologist-Machine Collaboration in Breast Cancer Diagnosis

Trent Kyono, Fiona J. Gilbert|arXiv (Cornell University)|2018. 10. 30.

AI in cancer detection참고 문헌 5인용 수 30

한 줄 요약

MAMMO는 두 단계 접근 방식을 통해 암 진단 및 방사선학적 평가(예: 유방 밀도, 의심도)를 학습하는 다중시각, 다중작업 컨볼루션 신경망(CNN)과 함께, 모델이 신뢰도 있게 진단할 수 있는 유방촬영 영상과 방사선의사 검토가 필요한 영상을 식별하는 트리iage 네트워크를 활용하는 딥러닝 임상 의사결정 지원 시스템이다. 이 시스템은 방사선의사의 작업 부담을 42.8% 감소시키면서 진단 정확도를 향상시키고, 복잡한 사례에 전문가의 주의를 집중시킨다.

ABSTRACT

With an aging and growing population, the number of women requiring either screening or symptomatic mammograms is increasing. To reduce the number of mammograms that need to be read by a radiologist while keeping the diagnostic accuracy the same or better than current clinical practice, we develop Man and Machine Mammography Oracle (MAMMO) - a clinical decision support system capable of triaging mammograms into those that can be confidently classified by a machine and those that cannot be, thus requiring the reading of a radiologist. The first component of MAMMO is a novel multi-view convolutional neural network (CNN) with multi-task learning (MTL). MTL enables the CNN to learn the radiological assessments known to be associated with cancer, such as breast density, conspicuity, suspicion, etc., in addition to learning the primary task of cancer diagnosis. We show that MTL has two advantages: 1) learning refined feature representations associated with cancer improves the classification performance of the diagnosis task and 2) issuing radiological assessments provides an additional layer of model interpretability that a radiologist can use to debug and scrutinize the diagnoses provided by the CNN. The second component of MAMMO is a triage network, which takes as input the radiological assessment and diagnostic predictions of the first network's MTL outputs and determines which mammograms can be correctly and confidently diagnosed by the CNN and which mammograms cannot, thus needing to be read by a radiologist. Results obtained on a private dataset of 8,162 patients show that MAMMO reduced the number of radiologist readings by 42.8% while improving the overall diagnostic accuracy in comparison to readings done by radiologists alone. We analyze the triage of patients decided by MAMMO to gain a better understanding of what unique mammogram characteristics require radiologists' expertise.

연구 동기 및 목표

유방암 스크리닝에서 방사선의사가 검토해야 할 유방촬영 영상 수를 줄이되, 진단 정확도를 유지하거나 향상시키는 것.
방사선의사와 AI 간의 협업을 가능하게 하는 임상적 통합이 가능한 시스템을 개발하는 것, 즉 방사선의사를 대체하는 것이 아니라 보완하는 것.
암 진단과 함께 방사선학적 평가(예: 유방 밀도, 두드러짐)를 학습함으로써 모델의 해석 가능성(해석 가능성)을 향상시키는 것.
방사선의사 검토가 필요한 사례와 관련된 환자 특성(예: 연령, 유방 밀도, 병변 유형)을 규명하여 표적 임상 우선순위를 설정하는 것.
모델 신뢰도에 따라 유방촬영 영상을 AI 또는 방사선의사에게 동적으로 할당하는 트리iage 메커니즘을 구축하는 것.

제안 방법

다중시각, 다중작업 학습(MTL) CNN이 양측 유방의 CC 및 MLO 영상 4장을 처리하며, 암 진단과 유방 밀도, 의심도와 같은 방사선학적 평가를 함께 학습한다.
MTL 아키텍처는 암 진단을 위한 개선된 특징 표현을 제공하며, 방사선의사가 검토할 수 있는 해석 가능한 출력을 제공한다.
별도의 트리iage 네트워크는 MTL 출력을 기반으로 각 유방촬영 영상이 'AI가 진단 가능' 또는 '방사선의사 검토 필요'로 분류되도록, 모델의 신뢰도에 따라 결정한다.
데이터 증강 전략으로는 시각별로 독립적인 무작위 변형(뒤집기, 회전), 다중채널 CLAHE, 가우시안 노이즈, 그리고 작은 배치 크기로 인한 클래스 불균형을 보완하기 위한 수동 샘플링이 포함된다.
시스템은 8,162명의 환자로 구성된 비공개 데이터셋에서 훈련 및 평가되었으며, 외부 데이터셋(CBIS-DDSM)은 사전 훈련에 사용되었지만 성능 향상에 크게 기여하지는 않았다.
모델 성능 평가는 다양한 트리iage 운영 지점에서의 가짜 양성 및 가짜 음성 비율을 기반으로 평가되었으며, 최적 설정은 사전 정의된 임계값 방정식을 통해 선정되었다.

실험 결과

연구 질문

RQ1딥러닝 시스템이 진단 정확도를 희생시키지 않고도 방사선의사가 검토해야 할 유방촬영 영상 수를 줄일 수 있는가?
RQ2방사선학적 평가(예: 유방 밀도, 두드러짐)를 포함한 다중작업 학습이 진단 성능 향상과 모델의 해석 가능성 향상에 어떻게 기여하는가?
RQ3모델이 자신감 있게 진단하지 못하는 사례의 원인이 되는 주요 환자 특성(예: 연령, 유방 밀도, 병변 유형)은 무엇인가?
RQ4트리iage 메커니즘이 저위험 사례와 고위험 사례를 효과적으로 분리하여 방사선의사의 작업 부담을 최적화할 수 있는가?
RQ5모델의 해석 가능성 기능(예: 의심도 점수)의 통합이 방사선의사의 신뢰도 향상과 임상적 유용성 향상에 기여하는가?

주요 결과

MAMMO는 테스트 세트 1,000명의 환자에서 방사선의사 검토 수를 42.8% 감소시켰으며, 방사선의사 전용 검토 대비 전체 진단 정확도가 향상되었다.
트리iage 네트워크는 방사선의사 검토가 필요한 환자 대부분이 고유방 밀도(50–74% 및 75–100%)를 보이고, 연령이 60세 이상이며, 가시성 있는 병변(스피큘레이티드 마스스)이 있는 경우임을 성공적으로 식별했다.
스피큘레이티드 마스스가 있는 환자에서 암 유병률이 가장 높았으며(44%), 이는 모델이 복잡한 사례를 우선적으로 선별하는 데 일치한다.
다중작업 학습의 통합은 네트워크가 암 관련 정교한 특징 표현을 학습할 수 있도록 하여 진단 성능 향상에 기여했다.
트리iage 시스템은 가짜 음성과 가짜 양성의 균형을 잘 유지했으며, 그 성능은 그림 7에 다양한 운영 지점에서 시각화되었으며, 특정 신뢰도 임계값에서 최적의 성능를 기록했다.
CBIS-DDSM와 같은 외부 데이터셋은 성능 향상에 크게 기여하지 않았으며, 이는 영상 모odal리티의 차이(필름 대비 디지털 유방촬영)로 인한 것으로 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.