Skip to main content
QUICK REVIEW

[논문 리뷰] Object Contour Detection with a Fully Convolutional Encoder-Decoder Network

Shuicheng Yan, Brian Price|arXiv (Cornell University)|2016. 03. 15.
Medical Image Segmentation Techniques참고 문헌 7인용 수 44
한 줄 요약

이 논문은 정밀한 객체 윤곽 검출을 위한 완전 컨volution 신경망(CEDN)을 제안하며, 밀도 있는 CRF 기반 다각형 정련을 사용해 개선된 PASCAL VOC 애너테이션을 기반으로 엔드 투 엔드로 훈련한다. 이 방법은 다중 척도 조합 그룹화(MCG)와 결합함으로써 이미지당 약 1,660개의 객체 제안만으로도 PASCAL VOC 2012에서 최신 기준 평균 재현율 0.67을 달성하여 이전 방법보다 훨씬 뛰어난 성능을 보였다.

ABSTRACT

We develop a deep learning algorithm for contour detection with a fully convolutional encoder-decoder network. Different from previous low-level edge detection, our algorithm focuses on detecting higher-level object contours. Our network is trained end-to-end on PASCAL VOC with refined ground truth from inaccurate polygon annotations, yielding much higher precision in object contour detection than previous methods. We find that the learned model generalizes well to unseen object classes from the same super-categories on MS COCO and can match state-of-the-art edge detection on BSDS500 with fine-tuning. By combining with the multiscale combinatorial grouping algorithm, our method can generate high-quality segmented object proposals, which significantly advance the state-of-the-art on PASCAL VOC (improving average recall from 0.62 to 0.67) with a relatively small amount of candidates ($\sim$1660 per image).

연구 동기 및 목표

  • 객체 윤곽 검출을 위한 고품질, 대규모 훈련 데이터의 부족 문제를 해결하기 위해 정확도가 떨어지는 다각형 애너테이션을 정련하는 것.
  • 기존의 저수준 엣지 검출기보다 더 높은 수준의 객체 윤곽을 검출하는 딥 러닝 모델을 개발하여 정밀도를 향상시키는 것.
  • 윤곽 검출과 다중 척도 조합 그룹화(MCG)를 결합하여 고품질의 세그먼테이션된 객체 제안을 생성하는 것.
  • 특히 MS COCO에서 같은 슈퍼카테고리에 속하는 새로운 객체 클래스로의 일반화 성능를 평가하는 것.
  • 최소한의 피팅 조정으로 자연 이미지 엣지 검출에 전이 학습을 가능하게 하는 것.

제안 방법

  • VGG-16을 인코더로 사용하고 고정된 상태로 유지하며, 풀링 스위치에서 유래한 스킵 커넥션을 활용해 정밀한 국소화를 지원하는 컨volution 및 언풀링 레이어를 갖춘 디코더를 포함한 완전 컨볼루션 인코더-디코더 네트워크(CEDN)를 설계한다.
  • 인코더-디코더 아키텍처는 임의의 이미지 크기에서 밀도 높은 전체 해상도 예측을 가능하게 하며, 최대 풀링 스위치에서 온 스킵 연결을 통해 정밀한 국소화를 달성한다.
  • 정확도가 떨어지는 다각형 애너테이션으로부터 밀도 있는 CRF 기반 방법을 사용해 진짜 윤곽을 정련하여 훈련 데이터의 품질을 향상시킨다.
  • 네트워크는 개선된 애너테이션을 기반으로 PASCAL VOC에서 엔드 투 엔드로 훈련되며, 배경 엣지를 억제하고 객체 전용 윤곽에 집중한다.
  • 예측된 윤곽 맵에 MCG 알고리즘을 적용하여 세그먼테이션된 제안을 생성하며, 높은 재현율을 확보한다.
  • 모델은 BSDS500에서 피팅 조정을 통해 최신 기준 엣지 검출 성능를 맞추며, 재훈련 없이 MS COCO에서 평가된다.

실험 결과

연구 질문

  • RQ1정련된 대규모 애너테이션을 기반으로 훈련된 완전 컨볼루션 인코더-디코더 네트워크가 고정밀도 객체 윤곽 검출을 달성할 수 있는가?
  • RQ2동일한 슈퍼카테고리에 속하지만 훈련 세트에 포함되지 않은 새로운 객체 클래스(예: 동물, 차량 등)로 일반화 성능가 얼마나 잘 작동하는가?
  • RQ3예측된 윤곽이 이전 방법보다 더 적은 후보 수로 고품질의 세그먼테이션된 객체 제안을 효과적으로 생성할 수 있는가?
  • RQ4객체 윤곽을 기반으로 훈련되었음에도 불구하고, 피팅 조정 후 자연 이미지 엣지 검출에서 경쟁적인 성능를 달성할 수 있는가?
  • RQ5특히 PASCAL VOC 훈련 세트에 포함되지 않은 새로운 객체 클래스가 있는 MS COCO에서 모델의 성능는 어떠한가?

주요 결과

  • CEDN 모델은 PASCAL VOC 2012 검증 세트에서 이미지당 약 1,660개의 객체 제안만으로도 평균 재현율 0.67을 달성하여 이전 최고 기록인 0.62를 초월했다.
  • 제안 수를 3배 감소시켜 약 5,140에서 약 1,660으로 줄였음에도 불구하고 평균 재현율이 8% 향상되었다.
  • 동일한 슈퍼카테고리 내에서 훈련된 클래스(예: 개, 고양이)를 기반으로 새로운 클래스(예: 곰)를 잘 검출하는 등 우수한 일반화 성능를 보였다.
  • MS COCO에서 CEDNMCG 방법은 MCG보다 더 적은 제안 수로 경쟁적인 평균 재현율(AR)을 달성했지만, PASCAL VOC에서 배경 애너테이션이 포함되어 있어 '식품'이나 '가전제품'과 같은 새로운 클래스에서는 성능이 저하되었다.
  • 피팅 조정 후 BSDS500에서 최신 기준 엣지 검출 성능와 유사한 성능를 달성하여 이식 가능성(transferability)을 입증했다.
  • CEDNSCG 변형은 이미지당 3초 이내에 CEDNMCG와 유사한 정확도를 달성하여 SCG를 통한 효율성 향상을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.