[논문 리뷰] Multiregion Bilinear Convolutional Neural Networks for Person Re-Identification
이 논문은 전역적 풀링 대신 국소화된 이미지 영역 내에서 이차 풀링을 적용함으로써 공간적 구조를 유지하면서 특징 표현을 향상시키는 다중영역 이차 합성 신경망(MR B-CNN)을 제안한다. 이 방법은 Market-1501, CUHK01, CUHK03 데이터셋에서 기존 표준 CNN 및 전역 이차 CNN보다 더 분류 능력이 뛰어난 임bedding을 학습함으로써 최신 기준 성능을 달성한다.
In this work we propose a new architecture for person re-identification. As the task of re-identification is inherently associated with embedding learning and non-rigid appearance description, our architecture is based on the deep bilinear convolutional network (Bilinear-CNN) that has been proposed recently for fine-grained classification of highly non-rigid objects. While the last stages of the original Bilinear-CNN architecture completely removes the geometric information from consideration by performing orderless pooling, we observe that a better embedding can be learned by performing bilinear pooling in a more local way, where each pooling is confined to a predefined region. Our architecture thus represents a compromise between traditional convolutional networks and bilinear CNNs and strikes a balance between rigid matching and completely ignoring spatial information. We perform the experimental validation of the new architecture on the three popular benchmark datasets (Market-1501, CUHK01, CUHK03), comparing it to baselines that include Bilinear-CNN as well as prior art. The new architecture outperforms the baseline on all three datasets, while performing better than state-of-the-art on two out of three. The code and the pretrained models of the approach can be found at https://github.com/madkn/MultiregionBilinearCNN-ReId.
연구 동기 및 목표
- 자세, 조명 및 의복 유사성로 인한 높은 외형 변동성 문제를 해결하기 위해.
- 기존 전역 풀링으로 인해 기하학적 정보가 손실되는 이차 CNN에서 국소적 공간적 구조를 유지함으로써 특징 표현을 향상시키기 위해.
- 표준 CNN과 전역 이차 CNN 사이의 균형 잡힌 아키텍처를 개발하여 불변성과 공간 민감도를 조화시키기 위해.
- 국소적 이차 풀링을 활용하여 주요 재식별 벤치마크에서 최신 기준 성능을 달성하기 위해.
제안 방법
- 입력 이미지를 상체, 중체, 하체의 세 수평 영역으로 나누어 영역별로 이차 풀링을 적용한다.
- 각 영역에 대해 두 개의 스트림 네트워크에서 나온 활성화 맵의 외적곱을 계산한 후 局부 평균 풀링을 수행한다.
- 결과로 생성된 영역 기반 이차 특징를 연결하여 완전 연결층과 드롭아웃을 거쳐 기술자 특징 학습을 수행한다.
- 거리 측정(코사인 또는 유클리드 거리)을 효과적으로 수행할 수 있도록 메트릭 학습을 최적화하기 위해 히스토그램 손실을 사용하여 모델을 훈련한다.
- 모든 영역에서 공유된 합성곱 계층을 사용하여 다중 스케일 특징 추출 전략을 구현함으로써 파rameter 효율성을 유지한다.
- 더 작은 데이터셋에서 일반화 성능을 향상시키기 위해 CUHK03에서 미세조정을 수행한다.
실험 결과
연구 질문
- RQ1전역 풀링 대비 국소화된 이차 풀링이 이차 CNN에서 사람 재식별 성능 향상에 기여하는가?
- RQ2이차 특징에서 공간적 구조를 유지하면 재식별을 위한 더 나은 분류 능력을 가진 임bedding을 얻을 수 있는가?
- RQ3제안된 다중영역 이차 CNN은 표준 CNN 및 전역 이차 CNN과 비교해 표준 벤치마크에서 어떻게 성능을 내는가?
- RQ4다양한 데이터 스케일과 레이블 품질을 가진 데이터셋 간에 이 아키텍처가 잘 일반화되는가?
- RQ5재식별 작업에서 성능을 최대화하기 위해 최적의 영역 크기와 풀링 전략은 무엇인가?
주요 결과
- MR B-CNN 아키텍처는 Market-1501 데이터셋에서 Recall@1이 66.36%를 기록하여 베이스라인 CNN(56.62%)과 전역 B-CNN(63.67%)를 모두 앞서며 성능을 뛰어올랐다.
- CUHK01 데이터셋에서 MR B-CNN는 싱글샷 프로토콜에서 Recall@1이 52.88%를 기록하여 베이스라인 CNN(48.04%)와 전역 B-CNN(47.53%)를 초월했다.
- CUHK03-라벨링된 데이터셋에서 MR B-CNN는 Recall@1이 87.06%를 기록하여 전역 B-CNN(85.75%)와 베이스라인 CNN(82.15%)를 뛰어넘었다.
- Market-1501에서 MR B-CNN는 mAP가 41.17%를 기록하여 베이스라인 CNN(32.97%)를 초월했으며, 이전 최신 기준 성능 방법들을 능가했다.
- 제거 실험 결과 전역 이차 풀링은 공간적 구조 손실로 인해 성능이 열 劣화되며, 영역 기반 풀링이 모든 데이터셋에서 성능 향상에 크게 기여하는 것으로 확인되었다.
- 아키텍처는 잘 일반화되며, Market-1501과 CUHK03에서 두 번째 데이터셋에서 최신 기준 성능을 달성했고, CUHK01에서도 뛰어난 성능을 보였다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.