QUICK REVIEW

[논문 리뷰] Accurate Retinal Vessel Segmentation via Octave Convolution Neural Network

Zhun Fan, Jiajie Mo|arXiv (Cornell University)|2019. 06. 28.

Retinal Imaging and Analysis참고 문헌 74인용 수 27

한 줄 요약

이 논문은 색채 안저 영상에서 정확한 망막 혈관 세분화를 위해 다중공간 주파수 특징을 포착하기 위해 옥타브 컨볼루션과 옥타브 트랜스포즈 컨볼루션을 사용하는 새로운 인코더-디코더 컨볼루션 신경망인 Octave UNet을 제안한다. 이 방법은 HRF에서 0.9698 AUROC를 기록하며 최신 기술 수준의 성능을 달성하며, 이미지당 약 0.4초의 빠른 추론 속도와 이미지 잡음 및 이상 현상에 대한 강건성을 보이며, 기준 UNet 및 이전 최신 기술 수준의 방법들을 능가한다.

ABSTRACT

Retinal vessel segmentation is a crucial step in diagnosing and screening various diseases, including diabetes, ophthalmologic diseases, and cardiovascular diseases. In this paper, we propose an effective and efficient method for vessel segmentation in color fundus images using encoder-decoder based octave convolution networks. Compared with other convolution networks utilizing standard convolution for feature extraction, the proposed method utilizes octave convolutions and octave transposed convolutions for learning multiple-spatial-frequency features, thus can better capture retinal vasculatures with varying sizes and shapes. To provide the network the capability of learning how to decode multifrequency features, we extend octave convolution and propose a new operation named octave transposed convolution. A novel architecture of convolutional neural network, named as Octave UNet integrating both octave convolutions and octave transposed convolutions is proposed based on the encoder-decoder architecture of UNet, which can generate high resolution vessel segmentation in one single forward feeding without post-processing steps. Comprehensive experimental results demonstrate that the proposed Octave UNet outperforms the baseline UNet achieving better or comparable performance to the state-of-the-art methods with fast processing speed. Specifically, the proposed method achieves 0.9664 / 0.9713 / 0.9759 / 0.9698 accuracy, 0.8374 / 0.8664 / 0.8670 / 0.8076 sensitivity, 0.9790 / 0.9798 / 0.9840 / 0.9831 specificity, 0.8127 / 0.8191 / 0.8313 / 0.7963 F1 score, and 0.9835 / 0.9875 / 0.9905 / 0.9845 Area Under Receiver Operating Characteristic curve, on DRIVE, STARE, CHASE_DB1, and HRF datasets, respectively.

연구 동기 및 목표

노이즈가 많고 대trast가 낮은 안저 영상에서 크기, 형태, 밝기의 다양성을 보이는 망막 혈관을 세분화하는 과제를 해결하기 위해.
옥타브 컨볼루션을 통해 다중공간 주파수 표현을 활용하여 특징 학습의 효율성과 정확도를 향상시키기 위해.
패치 기반 추론이나 후처리를 제거하여 단일 전방 전파에서 끝내는 엔드 투 엔드 전체 영상 세분화를 가능하게 하기 위해.
임상적 안저 영상에서 흔히 볼 수 있는 출혈, 출액, 불균일한 조명 등의 이미지 잡음에 대한 강건성을 향상시키기 위해.
기준 UNet과 기존 최신 기술 수준의 방법들을 능가하는 고정밀도 세분화 정확도와 계산 효율성을 동시에 달성하기 위해.

제안 방법

이 방법은 특징 맵을 고주파 및 저주파 하위 대역으로 나누어 다중스케일 특징 학습을 효율적으로 가능하게 하는 옥타브 컨볼루션을 도입한다.
디코더 경로에서 다중주파수 특징을 효과적으로 업샘플링하고 재구성하기 위해 새로운 연산인 옥타브 트랜스포즈 컨볼루션을 제안한다.
옥타브 컨볼루션과 옥타브 트랜스포즈 컨볼루션을 모두 통합하여 계층적 특징 학습과 정밀한 세분화를 위한 UNet 유사 인코더-디코더 프레임워크를 구성한다.
패치 자르기나 후처리가 필요 없도록, 각 픽셀을 혈관 또는 비혈관으로 분류하기 위해 이진 교차 엔트로피 손실을 사용하여 엔드 투 엔드로 학습한다.
모델은 단일 전방 전파에서 전체 해상도 안저 영상을 처리하여 최소한의 계산 오버헤드로 실시간 추론을 가능하게 한다.
최종 세분화를 위해 전역 임계값 0.5를 사용하며, 민감도 분석을 통해 다양한 임계값 설정에서의 강건성을 확인하였다.

실험 결과

연구 질문

RQ1표준 컨볼루션에 비해 옥타브 컨볼루션은 다중스케일 망막 혈관 특징의 표현을 향상시킬 수 있는가?
RQ2제안된 옥타브 트랜스포즈 컨볼루션은 디코더 경로에서 고해상도 혈관 지도의 재구성에 기여하는가?
RQ3Octave UNet은 표준 UNet 및 다른 최신 기술 수준의 방법들에 비해 뛰어난 세분화 정확도와 속도를 달성할 수 있는가?
RQ4임상적 안저 영상에서 흔히 볼 수 있는 출혈, 출액, 불균일한 조명 등의 이미지 잡음에 대해 모델의 강건성은 어떠한가?
RQ5이 방법은 다양한 해상도와 혈관 특성을 지닌 다양한 데이터셋에서도 일관된 성능을 유지하는가?

주요 결과

DRIVE 데이터셋에서 제안된 Octave UNet은 정확도 0.9664, 민감도 0.8374, 특이도 0.9790, F1 점수 0.8127, AUROC 0.9835를 기록하였다.
STARE 데이터셋에서, 이는 정확도 0.9713, 민감도 0.8664, 특이도 0.9798, F1 점수 0.8191, AUROC 0.9875를 달성하였다.
CHASE_DB1에서, 이 방법은 정확도 0.9759, 민감도 0.8670, 특이도 0.9840, F1 점수 0.8313, AUROC 0.9905를 달성하였다.
HRF 데이터셋에서, 이는 정확도 0.9698, 민감도 0.8076, 특이도 0.9831, F1 점수 0.7963, AUROC 0.9845를 기록하였다.
모델은 CPU에서 단일 안저 영상을 약 0.4초 만에 처리하며, 패치 기반 방법(예: Antiga 등 [34], 10.5초)보다 훨씬 빠르며, 엔드 투 엔드 접근 방식과 경쟁 가능한 성능을 보였다.
전역 임계값 변화에 대해 강건성을 보이며, τ=0.5 근처에서 성능 저하가 최소한이었고, 낮은 임계값(예: τ≈0.25)에서 민감도 향상이 뚜렷하게 나타났다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.