QUICK REVIEW

[논문 리뷰] Learning what to look in chest X-rays with a recurrent visual attention model

Petros-Pavlos Ypsilantis, Giovanni Montana|arXiv (Cornell University)|2017. 01. 23.

Advanced Neural Network Applications참고 문헌 9인용 수 37

한 줄 요약

이 논문은 흉부 X선에서 진단적으로 관련성이 높은 영역에 집중할 수 있도록 학습하는 순환 시각적 주의 모델(RAM)을 제안한다. 이 모델은 강화 학습을 통해 크게 확장된 심장 또는 의료 기구를 탐지한다. 500만 개의 파라미터만을 사용하면서도 Inception-v3와 유사한 성능을 달성하여 91.0% 및 90.6%의 정확도를 기록한다. 이는 해부학적 지식과 일치하는 작업별 주의 정책을 학습한다.

ABSTRACT

X-rays are commonly performed imaging tests that use small amounts of radiation to produce pictures of the organs, tissues, and bones of the body. X-rays of the chest are used to detect abnormalities or diseases of the airways, blood vessels, bones, heart, and lungs. In this work we present a stochastic attention-based model that is capable of learning what regions within a chest X-ray scan should be visually explored in order to conclude that the scan contains a specific radiological abnormality. The proposed model is a recurrent neural network (RNN) that learns to sequentially sample the entire X-ray and focus only on informative areas that are likely to contain the relevant information. We report on experiments carried out with more than $100,000$ X-rays containing enlarged hearts or medical devices. The model has been trained using reinforcement learning methods to learn task-specific policies.

연구 동기 및 목표

이전에 레이블이 부여된 검사 자료만을 사용하여 흉부 X선에서 방사선학적 이상을 자동으로 탐지할 수 있는 완전 자동화된 시스템을 개발하는 것.
순환 주의 메커니즘이 정확한 분류를 위해 진단적으로 관련성이 높은 영역에 집중할 수 있는지 조사하는 것.
작업별 주의 정책을 학습하여 모델 복잡성을 줄이면서도 높은 성능를 유지하는 것.
임상적 추론과 일치하는 주의 경로를 시각화함으로써 해석 가능한 진단을 가능하게 하는 것.

제안 방법

모델는 순환 신경망(RNN)과 구간 기반의 주의 정책에 기반해 각 시간 단계에서 작은 이미지 조각을 샘플링하는 구간 기반 메커니즘을 사용한다.
각 단계에서 모델는 정규 분포에서 샘플링된 위치 중심의 구간을 수신하며, 서로 다른 크기의 두 개의 구간이 국소적 맥락을 포괄한다.
두 개의 사전 훈련된 합성곱 오토에인코더 스택이 각 구간에서 강력한 특징을 추출하기 위한 인코더로 기능한다.
인코딩된 구간 표현은 위치 임베딩과 연결되어 완전 연결층을 거쳐 LSTM 코어에 입력되는 컨텍스트 벡터를 생성한다.
LSTM 코어는 주의 메커니즘을 이끄는 은닉 상태를 유지하며, LSTM 출력은 가우시안 분포에서의 미분 가능 샘플링을 통해 다음 구간 위치를 예측하는 데 사용된다.
고정된 수의 단계를 거친 후, 최종 LSTM 은닉 상태는 이미지를 정상, 확장된 심장, 또는 의료 기구를 포함하는 것으로 분류하는 데 사용된다.

실험 결과

연구 질문

RQ1순환 시각적 주의 모델은 흉부 X선에서 이상 탐지에 있어 진단적으로 관련성이 높은 영역에 집중할 수 있는가?
RQ2모델가 학습한 주의 정책은 의료 기구나 심장 확장이 일반적으로 관찰되는 알려진 해부학적 위치와 일치하는가?
RQ3RAM 모델은 상대적으로 훨씬 적은 파라미터를 사용하면서도 최신의 CNN과 유사한 분류 성능를 달성할 수 있는가?
RQ4훈련 중에 모델의 주의 행동은 어떻게 변화하며, 임상적으로 의미 있는 탐색 전략으로 수렴하는가?

주요 결과

RAM 모델은 독립 테스트 세트에서 확장된 심장 탐지에 91.0%의 정확도, 의료 기구 탐지에 90.6%의 정확도를 기록했다.
이러한 결과는 Inception-v3가 각각 91.4% 및 91.3%의 정확도를 기록한 것과 유사하지만, 파라미터 수가 25%에 불과한 500만 대 2100만 개로 훨씬 적게 사용되었다.
의료 기구 탐지 시, 모델는 일반적으로 이식 부위인 폐와 척추 영역에 체계적으로 주의를 기울이는 주의 정책을 학습했다.
확장된 심장 탐지의 경우, 모델는 심장 윤곽선과 그 외연부를 탐색하는 방식으로 학습하여 임상적 심장비대 평가와 일치했다.
주의 경로의 시각화 결과, 모델는 초기에는 무작위로 탐색하지만 수백 개의 훈련 에포크 이후에 해부학적으로 관련성이 높은 영역에 집중하는 경향을 보였다.
모델의 주의 행동은 해석 가능성을 보이며, 높은 주의를 기울이는 영역이 각 병리에 대해 알려진 방사선학적 랜드마크와 일치했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.