QUICK REVIEW

[논문 리뷰] Multi-Level Factorisation Net for Person Re-Identification

Xiaobin Chang, Timothy M. Hospedales|arXiv (Cornell University)|2018. 03. 24.

Video Surveillance and Tracking Methods참고 문헌 11인용 수 74

한 줄 요약

MLFN은 다층 의미 수준에 걸쳐 잠재적 판별 인자를 자동으로 발견하고 동적으로 선택하여, 컴팩트한 Factor Signature를 딥 피처와 융합해 최첨단 사람 Re-ID 성능을 달성합니다.

ABSTRACT

Key to effective person re-identification (Re-ID) is modelling discriminative and view-invariant factors of person appearance at both high and low semantic levels. Recently developed deep Re-ID models either learn a holistic single semantic level feature representation and/or require laborious human annotation of these factors as attributes. We propose Multi-Level Factorisation Net (MLFN), a novel network architecture that factorises the visual appearance of a person into latent discriminative factors at multiple semantic levels without manual annotation. MLFN is composed of multiple stacked blocks. Each block contains multiple factor modules to model latent factors at a specific level, and factor selection modules that dynamically select the factor modules to interpret the content of each input image. The outputs of the factor selection modules also provide a compact latent factor descriptor that is complementary to the conventional deeply learned features. MLFN achieves state-of-the-art results on three Re-ID datasets, as well as compelling results on the general object categorisation CIFAR-100 dataset.

연구 동기 및 목표

Re-ID를 위해 다중 의미 수준에 걸쳐 사람 외모의 판별적이고 시야-불변 요인을 모델링하도록 동기를 부여한다.
수동 속성 주석 없이 잠재 요인을 발견하는 깊은 구조를 제안한다.
콤팩트한 다층 팩터 표현을 가능하게 하고 이를 기존의 깊은 피처와 융합하여 식별 성능을 향상시킨다.
쇼트컷 연결을 통해 학습된 요인에 깊은 감독신호를 제공한다.
주요 Re-ID 벤치마크에서 최신 성능을 입증하고 CIFAR-100에의 적용 가능성을 보인다.

제안 방법

stack된 블록들로 구성된 Multi-Level Factorisation Net (MLFN)을 도입한다; 각 블록은 다수의 Factor Modules (FMs)와 Factor Selection Module (FSM)을 포함한다.
FSM은 특정 의미 수준의 잠재 요인을 모델링하기 위해 FMs의 부분집합을 동적으로 활성화한다.
모든 블록에서의 FSM 출력들을 연결해 Factor Signature (FS)를 생성하고, 다층 팩터를 나타낸다.
최종 블록 특징을 FS와 공유된 프로젝션으로 융합해 최종 표현 R을 형성한다.
신분 분류 손실로 엔드투엔드 학습을 수행하며, skip 연결과 FS 기반의 깊은 감독으로 요인의 판별성을 강화한다.
동적 요인 선택과 컴팩트한 의미 서술자를 갖춘 ResNeXt 및 Mixture-of-Experts의 일반화로서 MLFN을 해석한다.
잠재 속성 상관관계를 밝히기 위해 FS만을 속성 부여와 유사한 매칭에 선택적으로 사용할 수 있다.

실험 결과

연구 질문

RQ1잠재적이고 다층적인 외관 요인이 속성 주석 없이 자동으로 발견될 수 있는가?
RQ2입력마다 동적으로 선택된 FSM들이 의미 수준 전반에 걸쳐 구별적이고 시야-불변의 특징을 제공하는가?
RQ3컴팩트한 Factor Signature를 최종 딥 피처와 결합하는 것이 전통적인 딥 피처만으로는 달성하기 어려운 Re-ID 성능 향상을 가져오는가?
RQ4학습된 잠재 요인이 해석 가능한 속성과 대응하고 교차 데이터셋 일반화에 도움이 되는가?
RQ5이 접근법이 주요 사람 Re-ID 벤치마크에서 최첨단 성능을 달성하고 일반 객체 분류에도 적용 가능한가?

주요 결과

MLFN은 Market-1501, CUHK03, 및 DukeMTMC-reID 데이터셋에서 최신 성능을 달성한다.
Market-1501에서 MLFN은 SQ에 대해 R1 90.0, mAP 74.3을 달성했고 MQ에 대해 R1 92.3, mAP 82.4를 달성했다.
CUHK03 Setting 1 (detected BoundingBoxes)에서 MLFN은 R1 82.8%, mAP 89.2%를 달성했으며, 검출 데이터가 더 강한 설정에서 89.2% R1 및 더 높은 mAP를 달성한다.
CUHK03 Setting 2에서 MLFN은 R1 54.7%, mAP 49.2%(라벨링) 및 R1 52.8%, mAP 47.8%(검출) 달성.
DukeMTMC-reID에서 MLFN은 R1 81.0%, mAP 62.8%를 달성했다.
MLFN-Fusion(FS 포함)은 ResNeXt 및 ResNet 베이스라인을 능가하며, 동적 FSM 기반 요인 선택은 차단형 변형들보다 명확한 상승을 제공한다.
Factor Signature만으로도 속성 유사 매칭에 준하는 경쟁력 있는 표현을 제공하며, FS를 딥 피처와 융합할 때 R이 향상된다(R).
잠재 요인은 색상/질감에서 의상 스타일 및 성별로 확장되며, 속성 주석 없이도 의미 수준에 걸쳐 시각적으로 정렬된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.