Skip to main content
QUICK REVIEW

[논문 리뷰] Mask-CNN: Localizing Parts and Selecting Descriptors for Fine-Grained Image Recognition

Xiu-Shen Wei, Chen-Wei Xie|ArXiv.org|2016. 05. 23.
Advanced Neural Network Applications참고 문헌 14인용 수 103
한 줄 요약

Mask-CNN은 FCN으로 예측된 객체/부분 마스크를 사용해 깊은 특징을 선택하고 풀링하는 엔드-투-엔드 네 흐름 CNN을 제시하여 미세 구별 인식에서 깊은 특징을 활용, Compact 모델로 CUB-200-2011에서 최첨단 정확도를 달성한다.

ABSTRACT

Fine-grained image recognition is a challenging computer vision problem, due to the small inter-class variations caused by highly similar subordinate categories, and the large intra-class variations in poses, scales and rotations. In this paper, we propose a novel end-to-end Mask-CNN model without the fully connected layers for fine-grained recognition. Based on the part annotations of fine-grained images, the proposed model consists of a fully convolutional network to both locate the discriminative parts (e.g., head and torso), and more importantly generate object/part masks for selecting useful and meaningful convolutional descriptors. After that, a four-stream Mask-CNN model is built for aggregating the selected object- and part-level descriptors simultaneously. The proposed Mask-CNN model has the smallest number of parameters, lowest feature dimensionality and highest recognition accuracy when compared with state-of-the-arts fine-grained approaches.

연구 동기 및 목표

  • 서로 다른 클래스 간의 미묘한 차이를 구분해야 하는 미세 구별 인식을 고무한다.
  • 부분 기반 마스크를 이용해 디스크립터를 선택하는 완전 연결 계층 없이 엔드-투-엔드 Mask-CNN을 제안한다.
  • 이미지, 머리(head), 몸통(torso), 객체(object) 네 스트림 아키텍처를 활용해 객체- 및 파트 수준 정보를 함께 모델링한다.
  • CUB-200-2011에서 최첨단 방법들과 비교해 높은 정확도와 효율성을 입증한다.

제안 방법

  • 파트 주석에서 객체/부분 마스크를 생성하기 위해 FCN을 사용하고, 파트 로컬라이제이션을 3 클래스로 구분하는 세분화 태스크로 다룬다.
  • Fully connected 계층을 버리고 합성곱 계층만 유지하여 공간 위치당 512-d 깊은 디스크립터를 얻는다.
  • head/torso/object 마스크를 7x7로 resize하고 이진 선택자로 적용해 객체 관련 디스크립터만 남긴다.
  • 선택된 디스크립터에 대해 스트림별 특징을 평균풀링과 최대풀링으로 계산하고, 이어서 L2 정규화를 수행한다.
  • 풀링 및 정규화 후 각 스트림마다 4개 1024-d 특징을 연결해 4096-d 표현으로 만들고, 엔드-투-엔드로 200-ways 분류기를 학습한다.
  • 선택적으로 pool5 외에도 relu5_2의 활성화를 추출하여 결합해 8192-d 표현을 만들고, SVD 화이트닝으로 4096-d로 축소한다.

실험 결과

연구 질문

  • RQ1부분 로컬라이제이션이 FCN 마스크를 통해 미세 구별 인식을 위한 디스크립터 선택을 가능하게 하는가? 테스트 시간 감독 없이도 가능할 것인가?
  • RQ2네 스트림 아키텍처(image, head, torso, object)가 단일 스트림이나 부분적으로 감독된 베이스라인보다 CUB-200-2011에서 더 좋은 성능을 내는가?
  • RQ3디스크립터 선택과 표준 풀링 간의 차이가 인식 정확도에 어떤 영향을 미치는가?
  • RQ4Mask-CNN이 모델 크기와 피처 차원 측면에서 최첨단 방법들과 비교해 어떤 차이를 보이는가?

주요 결과

  • 224x224 입력과 4-stream M-CNN(스트림에 FC가 없음)으로 83.1% 정확도 달성.
  • 모든 스트림에서 448x448 입력으로 85.2%로 향상; pool5와 relu5_2 특징을 결합한 4-stream M-CNN + (448)에서 85.4%.
  • SVD 화이트닝으로 4096-d로 축소하면 정확도는 85.5%.
  • Head 로컬라이제이션: 84.62% PCP; Torso 로컬라이제이션: 89.83% PCP (50% IOU 임계값 사용).
  • 테스트 세트의 객체 분할 평균 IU: 72.41%.
  • 4-stream M-CNN은 경쟁 방법들에 비해 파라미터 수와 특징 차원이 더 작다(예: 4-stream M-CNN+는 60.49M 파라미터, 8,192-d 피처; AlexNet 변형은 9.74M 파라미터, 2,048-d 피처).
  • CUB-200-2011에서 Mask-CNN은 85.5% 분류 정확도를 달성하여, 테스트 시 바운딩 박스나 파트를 필요로 하지 않는 이전 최첨단 방법들보다 높다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.