QUICK REVIEW

[논문 리뷰] Mask-CNN: Localizing Parts and Selecting Descriptors for Fine-Grained Image Recognition

Xiu-Shen Wei, Chen-Wei Xie|ArXiv.org|2016. 05. 23.

Advanced Neural Network Applications참고 문헌 14인용 수 103

한 줄 요약

Mask-CNN은 FCN으로 예측된 객체/부분 마스크를 사용해 깊은 특징을 선택하고 풀링하는 엔드-투-엔드 네 흐름 CNN을 제시하여 미세 구별 인식에서 깊은 특징을 활용, Compact 모델로 CUB-200-2011에서 최첨단 정확도를 달성한다.

ABSTRACT

Fine-grained image recognition is a challenging computer vision problem, due to the small inter-class variations caused by highly similar subordinate categories, and the large intra-class variations in poses, scales and rotations. In this paper, we propose a novel end-to-end Mask-CNN model without the fully connected layers for fine-grained recognition. Based on the part annotations of fine-grained images, the proposed model consists of a fully convolutional network to both locate the discriminative parts (e.g., head and torso), and more importantly generate object/part masks for selecting useful and meaningful convolutional descriptors. After that, a four-stream Mask-CNN model is built for aggregating the selected object- and part-level descriptors simultaneously. The proposed Mask-CNN model has the smallest number of parameters, lowest feature dimensionality and highest recognition accuracy when compared with state-of-the-arts fine-grained approaches.

연구 동기 및 목표

서로 다른 클래스 간의 미묘한 차이를 구분해야 하는 미세 구별 인식을 고무한다.
부분 기반 마스크를 이용해 디스크립터를 선택하는 완전 연결 계층 없이 엔드-투-엔드 Mask-CNN을 제안한다.
이미지, 머리(head), 몸통(torso), 객체(object) 네 스트림 아키텍처를 활용해 객체- 및 파트 수준 정보를 함께 모델링한다.
CUB-200-2011에서 최첨단 방법들과 비교해 높은 정확도와 효율성을 입증한다.

제안 방법

파트 주석에서 객체/부분 마스크를 생성하기 위해 FCN을 사용하고, 파트 로컬라이제이션을 3 클래스로 구분하는 세분화 태스크로 다룬다.
Fully connected 계층을 버리고 합성곱 계층만 유지하여 공간 위치당 512-d 깊은 디스크립터를 얻는다.
head/torso/object 마스크를 7x7로 resize하고 이진 선택자로 적용해 객체 관련 디스크립터만 남긴다.
선택된 디스크립터에 대해 스트림별 특징을 평균풀링과 최대풀링으로 계산하고, 이어서 L2 정규화를 수행한다.
풀링 및 정규화 후 각 스트림마다 4개 1024-d 특징을 연결해 4096-d 표현으로 만들고, 엔드-투-엔드로 200-ways 분류기를 학습한다.
선택적으로 pool5 외에도 relu5_2의 활성화를 추출하여 결합해 8192-d 표현을 만들고, SVD 화이트닝으로 4096-d로 축소한다.

실험 결과

연구 질문

RQ1부분 로컬라이제이션이 FCN 마스크를 통해 미세 구별 인식을 위한 디스크립터 선택을 가능하게 하는가? 테스트 시간 감독 없이도 가능할 것인가?
RQ2네 스트림 아키텍처(image, head, torso, object)가 단일 스트림이나 부분적으로 감독된 베이스라인보다 CUB-200-2011에서 더 좋은 성능을 내는가?
RQ3디스크립터 선택과 표준 풀링 간의 차이가 인식 정확도에 어떤 영향을 미치는가?
RQ4Mask-CNN이 모델 크기와 피처 차원 측면에서 최첨단 방법들과 비교해 어떤 차이를 보이는가?

주요 결과

224x224 입력과 4-stream M-CNN(스트림에 FC가 없음)으로 83.1% 정확도 달성.
모든 스트림에서 448x448 입력으로 85.2%로 향상; pool5와 relu5_2 특징을 결합한 4-stream M-CNN + (448)에서 85.4%.
SVD 화이트닝으로 4096-d로 축소하면 정확도는 85.5%.
Head 로컬라이제이션: 84.62% PCP; Torso 로컬라이제이션: 89.83% PCP (50% IOU 임계값 사용).
테스트 세트의 객체 분할 평균 IU: 72.41%.
4-stream M-CNN은 경쟁 방법들에 비해 파라미터 수와 특징 차원이 더 작다(예: 4-stream M-CNN+는 60.49M 파라미터, 8,192-d 피처; AlexNet 변형은 9.74M 파라미터, 2,048-d 피처).
CUB-200-2011에서 Mask-CNN은 85.5% 분류 정확도를 달성하여, 테스트 시 바운딩 박스나 파트를 필요로 하지 않는 이전 최첨단 방법들보다 높다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.