Skip to main content
QUICK REVIEW

[논문 리뷰] Learning Deep Representations of Medical Images using Siamese CNNs with Application to Content-Based Image Retrieval

Yu-An Chung, Wei‐Hung Weng|arXiv (Cornell University)|2017. 11. 22.
AI in cancer detection참고 문헌 26인용 수 61
한 줄 요약

이 논문은 이진 이미지 쌍으로부터 콘텐츠 기반 의학 영상 검색(CBMIR)을 위한 고정 길이 잠재 표현을 학습하는 심층 시암쥬 CNN을 제시하며, 단일 감독 CNN에 필적하는 성능을 달성하면서도 훨씬 적은 라벨링이 필요합니다.

ABSTRACT

Deep neural networks have been investigated in learning latent representations of medical images, yet most of the studies limit their approach in a single supervised convolutional neural network (CNN), which usually rely heavily on a large scale annotated dataset for training. To learn image representations with less supervision involved, we propose a deep Siamese CNN (SCNN) architecture that can be trained with only binary image pair information. We evaluated the learned image representations on a task of content-based medical image retrieval using a publicly available multiclass diabetic retinopathy fundus image dataset. The experimental results show that our proposed deep SCNN is comparable to the state-of-the-art single supervised CNN, and requires much less supervision for training.

연구 동기 및 목표

  • 의료 영상 표현 학습에서 라벨링 작업의 감소를 동기화합니다.
  • 바이너리 쌍 감독을 위한 엔드-투-엔드 심층 시암쥬 CNN(SCNN) 아키텍처를 제안합니다.
  • 당뇨병성 망막 사진에 대한 CBMIR을 위한 SCNN을 평가합니다.
  • 단일 감독 CNN 기준선(ResNet-50)과 SCNN 표현을 비교합니다.
  • 바이너리-쌍 감독이 검색 품질 및 표현 품질을 보존하거나 향상시키는지 분석합니다.

제안 방법

  • SCNN을 형성하기 위해 가중치를 공유하는 두 개의 동일한 ResNet-50 서브네트워크를 사용합니다.
  • 대상 간 거리(contrastive loss)를 이용해 이진 쌍 라벨로 학습하여 유사한 이미지는 더 가깝게, 다른 이미지는 멀어지도록 합니다(손실 L = 1(L=0) 1/2 D^2 + 1(L=1) 1/2 max(0, margin - D)^2).
  • CBMIR 작업을 위한 마지막 bottleneck 층에서 고정 길이의 잠재 표현을 추출합니다.
  • 정규화, 224x224로의 리사이징, 클래스 불균형을 다루기 위한 광범위한 데이터 증가 등으로 데이터셋을 전처리합니다.
  • 다중 클래스 라벨로 학습된 단일 감독 ResNet-50 기준선을 비교합니다.
  • MAP 및 MRR을 CBMIR 지표로 사용해 평가합니다.

실험 결과

연구 질문

  • RQ1이진 이미지 쌍으로 학습된 심층 시암쥬 CNN이 의학 영상의 CBMIR에 적합한 잠재 표현을 생성할 수 있나요?
  • RQ2SCNN의 CBMIR 성능이 다중 클래스 라벨로 학습된 완전 감독 단일 CNN과 비교했을 때 어떠합니까?
  • RQ3이진-쌍으로 학습된 표현이 이산적 다중 클래스 임베딩보다 임상적으로 더 의미 있거나 적용 가능한 표현을 제공합니까?
  • RQ4당뇨병성 망막 질환 데이터세트에서 SCNN 표현을 사용한 CBMIR의 표준 지표(MAP, MRR)에 미치는 영향은 무엇입니까?

주요 결과

LayerMAPMRR
CNN (third-last)0.62090.7608
CNN (second-last)0.63690.7691
CNN (softmax)0.66730.7745
SCNN (last layer)0.64920.7737
  • SCNN은 이진 감독을 사용하더라도 단일 감독 CNN 기준선에 비해 CBMIR 성능이 유사합니다.
  • SCNN의 마지막 층 표현은 단일 CNN의 일부 중간 층보다 MAP에서 우수하거나 동등하고 MRR에서 거의 같거나 근접합니다.
  • SCNN의 마지막 층 표현으로 CBMIR을 수행할 때 MAP = 0.6492 및 MRR = 0.7737이며, CNN(softmax) MAP = 0.6673, MRR = 0.7745와 비교됩니다.
  • 바이너리-쌍 감독은 다중 클래스 컷오프보다 당뇨병성 망막염의 점진적 특성과 더 잘 맞는 슬라이딩 스케일 표현을 생성합니다.
  • t-SNE 시각화는 건강에서 심한 DR까지의 표현이Distinct하면서도 점진적으로 전이됨을 보여 임상적으로 의미 있는 임베딩임을 시사합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.