QUICK REVIEW

[논문 리뷰] Deep-Person: Learning Discriminative Deep Features for Person Re-Identification

Xiang Bai, Mingkun Yang|arXiv (Cornell University)|2017. 11. 29.

Video Surveillance and Tracking Methods참고 문헌 59인용 수 63

한 줄 요약

Deep-Person은 LSTM 기반 부분 시퀀스 모델링과 전역 특징, 그리고 트리플렛 기반 랭킹을 결합한 엔드-투-엔드의 세 가지 분기 프레임워크를 도입하여 Re-ID를 위한 매우 구별력 있는 사람 디스크립터를 학습한다.

ABSTRACT

Recently, many methods of person re-identification (Re-ID) rely on part-based feature representation to learn a discriminative pedestrian descriptor. However, the spatial context between these parts is ignored for the independent extractor to each separate part. In this paper, we propose to apply Long Short-Term Memory (LSTM) in an end-to-end way to model the pedestrian, seen as a sequence of body parts from head to foot. Integrating the contextual information strengthens the discriminative ability of local representation. We also leverage the complementary information between local and global feature. Furthermore, we integrate both identification task and ranking task in one network, where a discriminative embedding and a similarity measurement are learned concurrently. This results in a novel three-branch framework named Deep-Person, which learns highly discriminative features for person Re-ID. Experimental results demonstrate that Deep-Person outperforms the state-of-the-art methods by a large margin on three challenging datasets including Market-1501, CUHK03, and DukeMTMC-reID. Specifically, combining with a re-ranking approach, we achieve a 90.84% mAP on Market-1501 under single query setting.

연구 동기 및 목표

바운딩 박스의 부정확성, 가림, 배경 잡음하에서 사람 재식별을 위한 견고한 특징 학습을 촉진한다.
연관 맥락 관계를 포착하기 위해 보행자를 신체 부위의 시퀀스로 모델링한다.
전신의 글로벌 표현과 로컬 부위 기반 특징을 보완적 정보로 활용한다.
식별(소프트맥스)과 랭킹(트리플렛 손실) 목표를 통합한 단일의 엔드-투-엔드 네트워크로 통합한다.

제안 방법

최종 풀링 계층 없이 ResNet-50 백본에서 특징을 추출한다.
가로 방향으로 풀링하여 부분 시퀀스를 형성한 다음, 두 층의 양방향 LSTM으로 신체 부위 간의 공간적 맥락을 모델링한다.
LSTM 기반 부분 표현과 글로벌 평균 풀링 및 소프트맥스 손실로 학습된 글로벌 표현을 결합한다.
PK 샘플링 배치를 사용한 트리플렛 손실로 메트릭 학습을 수행하는 세 번째 분기를 추가하여 강건한 유사도 측정치를 학습한다.
랭킹을 위한 트리플렛 손실과 부분 기반 및 글로벌 특징에 대한 두 개의 Softmax 식별 손실의 세 가지 손실로 네트워크를 공동 학습한다.

실험 결과

연구 질문

RQ1보행자를 신체 부위의 시퀀스로 LSTM으로 모델링하는 것이 전체 사람과의 정합성을 유지하면서 로컬 특징의 구별력을 향상시킬 수 있는가?
RQ2글로벌 및 부분 기반 표현의 결합이 Re-ID에 보완적 이점을 제공하는가?
RQ3단일 네트워크에서 식별 및 랭킹 목표를 통합하는 것이 보지 못한 아이덴티티에 대해 학습된 디스크립터를 향상시키는가?
RQ4Market-1501, CUHK03, DukeMTMC-reID에서 Deep-Person의 성능은 최첨단 방법과 어떤 차이가 있는가?

주요 결과

제안된 LSTM 기반 부분 시퀀스는 비연속 부분 모델보다 판별력을 향상시킨다.
글로벌 및 부분 기반 표현이 보완적 정보를 제공하여 성능을 향상시킨다.
세 가지 분기 Deep-Person 프레임워크는 단일 및 다중 질의 설정에서 Market-1501, CUHK03, DukeMTMC-reID 데이터셋에서 최첨단 방법을 능가한다.
식별 및 랭킹 목표를 모두 포함한 엔드투엔드 학습은 검색에 적합한 강건한 보행자 디스크립터를 산출한다.
수정 연구는 LSTM 기반 부위의 도입이 mAP와 rank-1 정확도에서 측정 가능한 향상을 가져옴을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.