QUICK REVIEW

[논문 리뷰] Deeply-Learned Part-Aligned Representations for Person Re-Identification

Li-Ming Zhao, Xi Li|arXiv (Cornell University)|2017. 07. 23.

Video Surveillance and Tracking Methods참고 문헌 32인용 수 166

한 줄 요약

논문은 파트-정렬(part-aligned) 표현을 도입하여 부분 라벨 없이 엔드-투-엔드로 몸통 파트별 특징을 학습하고 자세 및 공간 정렬 오류에 대한 강건성을 향상시키며 표준 데이터셋에서 최첨단 성능을 달성한다.

ABSTRACT

In this paper, we address the problem of person re-identification, which refers to associating the persons captured from different cameras. We propose a simple yet effective human part-aligned representation for handling the body part misalignment problem. Our approach decomposes the human body into regions (parts) which are discriminative for person matching, accordingly computes the representations over the regions, and aggregates the similarities computed between the corresponding regions of a pair of probe and gallery images as the overall matching score. Our formulation, inspired by attention models, is a deep neural network modeling the three steps together, which is learnt through minimizing the triplet loss function without requiring body part labeling information. Unlike most existing deep learning algorithms that learn a global or spatial partition-based local representation, our approach performs human body partition, and thus is more robust to pose changes and various human spatial distributions in the person bounding box. Our approach shows state-of-the-art results over standard datasets, Market-$1501$, CUHK$03$, CUHK$01$ and VIPeR.

연구 동기 및 목표

데이터에서 직접 구별 가능한 신체 부위를 학습하여 사람 재식별의 신체 부위 정렬 불일치를 해결한다.
라벨이 있는 부분 데이터 없이 신체를 영역으로 분할하는 파트 정렬 표현을 제안한다.
트립렛 손실로 학습되는 단일 딥 모델에서 파트 탐지와 특징 추출을 통합한다.
표준 벤치마크에서 포즈 변화 및 바운딩 박스 정렬 불일성에 대한 강건성을 입증한다.

제안 방법

사람 바운딩 박스로부터 이미지 특징 맵을 추출하기 위해 완전 합성곱 신경망을 사용한다.
특징 맵에서 구별 가능한 신체 영역 맵을 탐지하기 위해 다중 분기 파트 네트를 도입한다.
탐지된 각 영역에 가중치를 두고 풀링하여 부위별 특징을 계산하고 고정 길이 벡터로 축소한다.
파트 특징을 연결하고 L2 정규화하여 글로벌 파트 정렬 표현을 형성한다.
양성-음성 간의 상대 거리를 강화하도록 트립렛 손실로 네트워크를 엔드-투-엔드 학습한다.
프로브와 갤러리 이미지 간의 매칭에 간단한 유클리드 거리를 적용하여 효율적인 검색을 가능하게 한다.

실험 결과

연구 질문

RQ1명시적 신체 부위 라벨 없이 학습된 파트 정렬 표현이 사람 재식별에서 전통적인 공간 분할을 능가할 수 있는가?
RQ2포즈 및 시야 변화하에서 같은 사람의 이미지들 간에 학습된 신체 부위가 잘 정렬되는가?
RQ3고정된 공간 분할이나 외부 파트 분할을 사용하는 기존 방법과 제안된 파트 정렬 접근법의 비교는?
RQ4부위 수가 재식별 성능에 미치는 영향은?
RQ5다수의 표준 데이터셋과 특징 백본에서 방법이 효과적인가?

주요 결과

방법	rank-1	rank-5	rank-10	mAP
Our Method	81.0	92.0	94.7	63.4

파트 정렬 표현은 Market-1501, CUHK03, CUHK01, VIPeR에서 최첨단 성능과 비슷한 수준의 성능을 달성한다.
부위를 8개까지 늘리면 일반적으로 rank-1 정확도가 향상되며 그 이후에는 이득이 안정된다.
학습된 신체 부위를 사용하는 것이 주요 벤치마크에서 공간 스트라이프 및 그리드 분할보다 성능이 더 낫다.
파트 네트를 고정된 FC나 풀링 기반으로 교체하면 성능이 저하되며, 적응형 파트 탐지의 이점을 보여준다.
이 방법은 서로 다른 백본 네트워크(AlexNet, VGGNet, GoogLeNet)에서 이득을 제공한다.
최첨단 방법과 비교할 때, 제안된 방법은 Market-1501 및 CUHK03(라벨링된 상자와 탐지된 상자 모두를 포함) 등 여러 설정에서 보고된 최고 결과를 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.