QUICK REVIEW

[논문 리뷰] Y-Net: A deep Convolutional Neural Network for Polyp Detection

Ahmed Mohammed, Sule Yildirim Yayilgan|arXiv (Cornell University)|2018. 01. 01.

Colorectal Cancer Screening and Detection참고 문헌 11인용 수 35

한 줄 요약

이 논문은 대장내시경 영상에서 폴립 검출을 위한 새로운 이중 인코더, 단일 디코더 U-Net 유사 딥 러닝 아키텍처인 Y-Net을 제안한다. 이는 사전 훈련된 VGG19 인코더와 무작위로 초기화된 반사 인코더를 결합하며, 한정된 의료 데이터에서의 특징 학습을 향상시키기 위해 새로운 합-스킵-컨카테네이션 연산과 인코더별 학습률을 사용한다. Y-Net은 ASU-MAYO 데이터셋에서 85.9%의 F1 스코어와 84.4%의 리콜을 기록하여 기존 최고 성능 기법보다 F1 스코어 기준 7.3% 향상되고 리콜 기준 13% 향상되었다.

ABSTRACT

Colorectal polyps are important precursors to colon cancer, the third most common cause of cancer mortality for both men and women. It is a disease where early detection is of crucial importance. Colonoscopy is commonly used for early detection of cancer and precancerous pathology. It is a demanding procedure requiring significant amount of time from specialized physicians and nurses, in addition to a significant miss-rates of polyps by specialists. Automated polyp detection in colonoscopy videos has been demonstrated to be a promising way to handle this problem. {However, polyps detection is a challenging problem due to the availability of limited amount of training data and large appearance variations of polyps. To handle this problem, we propose a novel deep learning method Y-Net that consists of two encoder networks with a decoder network. Our proposed Y-Net method} relies on efficient use of pre-trained and un-trained models with novel sum-skip-concatenation operations. Each of the encoders are trained with encoder specific learning rate along the decoder. Compared with the previous methods employing hand-crafted features or 2-D/3-D convolutional neural network, our approach outperforms state-of-the-art methods for polyp detection with 7.3% F1-score and 13% recall improvement.

연구 동기 및 목표

제한된 애너테이션 훈련 데이터와 높은 외관 변동성으로 인해 대장내시경 영상에서 폴립 검출 정확도가 낮은 문제를 해결하기 위해.
사전 훈련된 및 훈련되지 않은 양방향 인코더 네트워크를 활용하여 폴립 검출 성능을 향상시키기 위해.
특징 융합을 위한 새로운 합-스킵-컨카테네이션 메커니즘을 도입하여 가짜 양성 및 가짜 음성 결과를 줄이기 위해.
광범위한 데이터 증강에 의존하지 않고도 높은 리콜과 정밀도를 달성하기 위해.
실제 대장내시경 영상에서 다양한 폴립 형태, 크기, 질감을 잘 일반화할 수 있는 실용적인 딥 러닝 프레임워크 개발하기 위해.

제안 방법

Y-Net은 이중 인코더, 단일 디코더 아키텍처를 채택하였으며, U-Net을 영감으로 삼았고, 한 인코더는 사전 훈련된 VGG19이고, 다른 한 인코더는 무작위로 초기화된 반사 네트워크이다.
모델은 두 인코더의 특징을 결합하기 위해 새로운 합-스킵-컨카테네이션 연산을 사용하며, 이는 더 깊고 더 강력한 특징 학습을 가능하게 한다.
훈련 중에 인코더별 학습률이 적용된다: 사전 훈련된 인코더는 낮은 학습률로 미세조정되고, 훈련되지 않은 인코더는 높은 학습률로 처음부터 훈련된다.
디코더는 폴립 국소화 및 세그멘테이션 최적화를 위해 분류적 손실 함수를 사용하여 처음부터 훈련된다.
모델은 광범위한 데이터 증강을 피하고, 대신 훈련 데이터가 제한된 상황에서 일반화할 수 있도록 아키텍처 혁신에 의존한다.
모델은 ASU-MAYO 폴립 검출 데이터셋에서 엔드 투 엔드로 훈련되며, 테스트 영상에서 추론을 수행하여 검출 지연 시간과 세그멘테이션 정확도를 평가한다.

실험 결과

연구 질문

RQ1사전 훈련된 네트워크와 훈련되지 않은 네트워크를 조합한 이중 인코더 아키텍처가 제한된 의료 데이터셋에서 폴립 검출 성능을 향상시킬 수 있는가?
RQ2제안된 합-스킵-컨카테네이션 연산이 표준 스킵 커넥션과 비교해 특징 표현력과 세그멘테이션 정확도를 향상시키는가?
RQ3인코더별 학습률 스케줄링이 폴립 검출에서 모델 수렴과 성능에 어떤 영향을 미치는가?
RQ4Y-Net은 데이터 증강에 의존하지 않고도 기존 최고 성능 기법보다 더 높은 리콜과 F1 스코어를 달성할 수 있는가?
RQ5실시간 대장내시경 영상 시퀀스에서 Y-Net의 검출 지연 시간은 얼마인가?

주요 결과

Y-Net은 ASU-MAYO 데이터셋에서 85.9%의 F1 스코어를 기록하여 이전 최고 성능 기법보다 7.3% 향상되었다.
모델은 84.4%의 리콜을 기록하여 이전 최고 성능 기법보다 13% 향상되었으며, 진짜 폴립 인스턴스를 더 잘 탐지함을 시사한다.
Y-Net은 ASU-MAYO 데이터셋에서 비교된 모든 방법들 중에서 가장 높은 진짜 양성수(3582개)와 가장 낮은 거짓 음성수(662개)를 기록하였다.
모델은 모든 폴립을 포함하는 테스트 영상에서 8 프레임 이내의 검출 지연 시간을 보이며 실시간 적용 가능성을 입증하였다.
사전 훈련된 VGG19 인코더와 무작위로 초기화된 반사 인코더, 합-스킵-컨카테네이션의 조합이 단일 인코더 U-Net 변종과 하이브리드 수작업 특징 방법보다 우수한 성능을 낸다.
제거 실험 결과, 사전 훈련된 인코더와 훈련되지 않은 인코더의 융합이 정밀도와 리콜 사이의 최적 균형을 이끌어내며, 사전 훈련된 인코더 또는 무작위로 초기화된 인코더만을 사용한 모델보다 뛰어난 성능을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.