QUICK REVIEW

[논문 리뷰] Multiregion Bilinear Convolutional Neural Networks for Person Re-Identification

Evgeniya Ustinova, Yaroslav Ganin|arXiv (Cornell University)|2015. 12. 16.

Video Surveillance and Tracking Methods인용 수 33

한 줄 요약

이 논문은 전역적 풀링 대신 국소화된 이미지 영역 내에서 이차 풀링을 적용함으로써 공간적 구조를 유지하면서 특징 표현을 향상시키는 다중영역 이차 합성 신경망(MR B-CNN)을 제안한다. 이 방법은 Market-1501, CUHK01, CUHK03 데이터셋에서 기존 표준 CNN 및 전역 이차 CNN보다 더 분류 능력이 뛰어난 임bedding을 학습함으로써 최신 기준 성능을 달성한다.

ABSTRACT

In this work we propose a new architecture for person re-identification. As the task of re-identification is inherently associated with embedding learning and non-rigid appearance description, our architecture is based on the deep bilinear convolutional network (Bilinear-CNN) that has been proposed recently for fine-grained classification of highly non-rigid objects. While the last stages of the original Bilinear-CNN architecture completely removes the geometric information from consideration by performing orderless pooling, we observe that a better embedding can be learned by performing bilinear pooling in a more local way, where each pooling is confined to a predefined region. Our architecture thus represents a compromise between traditional convolutional networks and bilinear CNNs and strikes a balance between rigid matching and completely ignoring spatial information. We perform the experimental validation of the new architecture on the three popular benchmark datasets (Market-1501, CUHK01, CUHK03), comparing it to baselines that include Bilinear-CNN as well as prior art. The new architecture outperforms the baseline on all three datasets, while performing better than state-of-the-art on two out of three. The code and the pretrained models of the approach can be found at https://github.com/madkn/MultiregionBilinearCNN-ReId.

연구 동기 및 목표

자세, 조명 및 의복 유사성로 인한 높은 외형 변동성 문제를 해결하기 위해.
기존 전역 풀링으로 인해 기하학적 정보가 손실되는 이차 CNN에서 국소적 공간적 구조를 유지함으로써 특징 표현을 향상시키기 위해.
표준 CNN과 전역 이차 CNN 사이의 균형 잡힌 아키텍처를 개발하여 불변성과 공간 민감도를 조화시키기 위해.
국소적 이차 풀링을 활용하여 주요 재식별 벤치마크에서 최신 기준 성능을 달성하기 위해.

제안 방법

입력 이미지를 상체, 중체, 하체의 세 수평 영역으로 나누어 영역별로 이차 풀링을 적용한다.
각 영역에 대해 두 개의 스트림 네트워크에서 나온 활성화 맵의 외적곱을 계산한 후 局부 평균 풀링을 수행한다.
결과로 생성된 영역 기반 이차 특징를 연결하여 완전 연결층과 드롭아웃을 거쳐 기술자 특징 학습을 수행한다.
거리 측정(코사인 또는 유클리드 거리)을 효과적으로 수행할 수 있도록 메트릭 학습을 최적화하기 위해 히스토그램 손실을 사용하여 모델을 훈련한다.
모든 영역에서 공유된 합성곱 계층을 사용하여 다중 스케일 특징 추출 전략을 구현함으로써 파rameter 효율성을 유지한다.
더 작은 데이터셋에서 일반화 성능을 향상시키기 위해 CUHK03에서 미세조정을 수행한다.

실험 결과

연구 질문

RQ1전역 풀링 대비 국소화된 이차 풀링이 이차 CNN에서 사람 재식별 성능 향상에 기여하는가?
RQ2이차 특징에서 공간적 구조를 유지하면 재식별을 위한 더 나은 분류 능력을 가진 임bedding을 얻을 수 있는가?
RQ3제안된 다중영역 이차 CNN은 표준 CNN 및 전역 이차 CNN과 비교해 표준 벤치마크에서 어떻게 성능을 내는가?
RQ4다양한 데이터 스케일과 레이블 품질을 가진 데이터셋 간에 이 아키텍처가 잘 일반화되는가?
RQ5재식별 작업에서 성능을 최대화하기 위해 최적의 영역 크기와 풀링 전략은 무엇인가?

주요 결과

MR B-CNN 아키텍처는 Market-1501 데이터셋에서 Recall@1이 66.36%를 기록하여 베이스라인 CNN(56.62%)과 전역 B-CNN(63.67%)를 모두 앞서며 성능을 뛰어올랐다.
CUHK01 데이터셋에서 MR B-CNN는 싱글샷 프로토콜에서 Recall@1이 52.88%를 기록하여 베이스라인 CNN(48.04%)와 전역 B-CNN(47.53%)를 초월했다.
CUHK03-라벨링된 데이터셋에서 MR B-CNN는 Recall@1이 87.06%를 기록하여 전역 B-CNN(85.75%)와 베이스라인 CNN(82.15%)를 뛰어넘었다.
Market-1501에서 MR B-CNN는 mAP가 41.17%를 기록하여 베이스라인 CNN(32.97%)를 초월했으며, 이전 최신 기준 성능 방법들을 능가했다.
제거 실험 결과 전역 이차 풀링은 공간적 구조 손실로 인해 성능이 열 劣화되며, 영역 기반 풀링이 모든 데이터셋에서 성능 향상에 크게 기여하는 것으로 확인되었다.
아키텍처는 잘 일반화되며, Market-1501과 CUHK03에서 두 번째 데이터셋에서 최신 기준 성능을 달성했고, CUHK01에서도 뛰어난 성능을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.